DiHAL: 几何引导的扩散-Transformer混合模型
本文介绍DiHAL,一种几何引导的扩散-Transformer混合模型,旨在解决扩散语言模型落后于自回归Transformer的问题。该模型通过几何代理为预训练Transformer的各层评分,选择扩散友好的隐藏状态接口,并用扩散桥替换下层前缀。实验表明,在8B规模骨干网络上,几何分数能有效预测浅层插入点,且隐藏状态恢复优于连续扩散基线。
First-Principle 上关于「Transformer架构」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍DiHAL,一种几何引导的扩散-Transformer混合模型,旨在解决扩散语言模型落后于自回归Transformer的问题。该模型通过几何代理为预训练Transformer的各层评分,选择扩散友好的隐藏状态接口,并用扩散桥替换下层前缀。实验表明,在8B规模骨干网络上,几何分数能有效预测浅层插入点,且隐藏状态恢复优于连续扩散基线。