**混合深度注意力机制:一种可扩展大语言模型的新方法**

_Mixture-of-Depths Attention_

> 字节跳动Seed团队在arXiv上发表论文,提出了名为‘混合深度注意力’(MoDA)的新机制。该机制允许大语言模型的每个注意力头同时关注当前层的序列KV对和前几层的深度KV对,旨在解决模型加深时浅层特征信息被稀释的问题。文中还描述了一种高效的硬件算法,以解决非连续内存访问模式。实验显示,在1.5B参数模型上,MoDA在平均困惑度和下游任务性能上均优于基线模型,且计算开销极小。

**来源信息**
- **来源**:字节 Seed:Research Papers(网页内嵌数据)
- **分类**:ai-models
- **原文**:[打开原文](https://arxiv.org/pdf/2603.15619)