**全面注意力机制回归:通过极少训练步骤将全注意力转换为稀疏注意力**

_Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps_

> 本文提出RTPurbo方法,通过仅需几百个训练步骤将全注意力大语言模型转换为稀疏注意力模型。研究发现全注意力模型本身具有内在稀疏性,仅需对少数注意力头保留完整KV缓存,并利用16维索引器实现高效长距离检索。该方法在长上下文基准测试中实现了接近无损的精度,同时在1M上下文长度下预填充加速高达9.36倍,解码加速约2.01倍,为高效长上下文推理提供了新方案。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.16928)