DiHAL: 几何引导的扩散-Transformer混合模型

原帖

**扩散应进入语言模型的何处？几何引导的隐藏状态替换**

_Where Should Diffusion Enter a Language Model? Geometry-Guided Hidden-State Replacement_

> 当前连续扩散语言模型落后于自回归Transformer，部分原因是扩散应用于不适合语言去噪和token恢复的空间。本文提出DiHAL，一种几何引导的扩散-Transformer混合模型，旨在确定扩散应在预训练Transformer的哪个位置介入。DiHAL使用几何代理为各层评分，选择一个扩散友好的隐藏状态接口，并用扩散桥替换下层Transformer前缀，同时保留上层和原始语言模型头。通过重建选定层的隐藏状态（而非token），DiHAL避免了直接的连续到离散恢复。在8B规模骨干网络上的实验表明，在固定桥接训练协议下，几何分数能有效预测浅层插入点，且隐藏状态恢复在匹配扩散/恢复训练预算的诊断比较中优于连续扩散基线。这些结果表明，隐藏状态几何有助于识别在预训练语言模型内进行基于扩散替换的可行位置。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.14368)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍DiHAL，一种几何引导的扩散-Transformer混合模型，旨在解决扩散语言模型落后于自回归Transformer的问题。该模型通过几何代理为预训练Transformer的各层评分，选择扩散友好的隐藏状态接口，并用扩散桥替换下层前缀。实验表明，在8B规模骨干网络上，几何分数能有效预测浅层插入点，且隐藏状态恢复优于连续扩散基线。

答案说明

DiHAL模型通过几何引导，在预训练Transformer中选择扩散介入点，以隐藏状态而非token为目标进行重建，在8B规模实验中表现优于连续扩散基线。

这篇帖子回答的问题

扩散语言模型为何落后于自回归Transformer？
DiHAL如何确定扩散应在语言模型中的哪个位置介入？

核心观点

DiHAL使用几何代理为预训练Transformer的各层评分，以选择扩散友好的隐藏状态接口。
在8B规模骨干网络上的实验表明，几何分数能有效预测浅层插入点，且隐藏状态恢复优于连续扩散基线。

FAQ

Q: DiHAL模型的核心创新点是什么？: A: DiHAL的核心创新在于使用几何代理为预训练Transformer的各层评分，选择扩散友好的隐藏状态接口，并用扩散桥替换下层前缀，同时重建隐藏状态而非token。

关键实体

DiHAL
扩散-Transformer混合模型