Transformer架构

DiHAL: 几何引导的扩散-Transformer混合模型

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:20.888Z

本文介绍DiHAL，一种几何引导的扩散-Transformer混合模型，旨在解决扩散语言模型落后于自回归Transformer的问题。该模型通过几何代理为预训练Transformer的各层评分，选择扩散友好的隐藏状态接口，并用扩散桥替换下层前缀。实验表明，在8B规模骨干网络上，几何分数能有效预测浅层插入点，且隐藏状态恢复优于连续扩散基线。

精选帖子

DiHAL: 几何引导的扩散-Transformer混合模型

相关作者