**扩散应进入语言模型的何处?几何引导的隐藏状态替换**

_Where Should Diffusion Enter a Language Model? Geometry-Guided Hidden-State Replacement_

> 当前连续扩散语言模型落后于自回归Transformer,部分原因是扩散应用于不适合语言去噪和token恢复的空间。本文提出DiHAL,一种几何引导的扩散-Transformer混合模型,旨在确定扩散应在预训练Transformer的哪个位置介入。DiHAL使用几何代理为各层评分,选择一个扩散友好的隐藏状态接口,并用扩散桥替换下层Transformer前缀,同时保留上层和原始语言模型头。通过重建选定层的隐藏状态(而非token),DiHAL避免了直接的连续到离散恢复。在8B规模骨干网络上的实验表明,在固定桥接训练协议下,几何分数能有效预测浅层插入点,且隐藏状态恢复在匹配扩散/恢复训练预算的诊断比较中优于连续扩散基线。这些结果表明,隐藏状态几何有助于识别在预训练语言模型内进行基于扩散替换的可行位置。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14368)