**Delta Attention Residuals:一种改进的跨层注意力残差连接方法**

_Delta Attention Residuals_

> 本文针对注意力残差连接中因累积隐藏状态冗余导致路由坍塌的问题,提出了一种名为Delta Attention Residuals的新方法。该方法不再关注前序层的累积状态,而是关注各子层引入的变化量(增量表示)。这种增量表示具有结构多样性,能产生更高对比度的注意力分布(最大权重约0.6,原方法约0.2),从而实现更精确、有效的跨层信息选择性路由。实验表明,在220M至7.6B参数的不同规模模型上,该方法始终优于标准残差连接和原有注意力残差连接,验证困惑度提升1.7%至8.2%。此外,该方法支持通过标准微调将现有预训练检查点转换为Delta Attention Residuals架构。论文代码已开源。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18855)