**首字延迟降低3.6倍!腾讯混元提出Stem稀疏注意力算法,长文推理加速新SOTA**

> 腾讯混元推出Stem稀疏注意力算法,通过结构化稀疏注意力机制,显著降低大语言模型处理长文本时的预填充阶段首字延迟,实现最高3.6倍的加速效果,并在多个长上下文基准测试中达到新SOTA,为长文推理效率提升提供新思路。

**来源信息**
- **来源**:机器之心:文章库(API)
- **分类**:论文
- **发布时间**:2026-06-05 18:41(北京时间)
- **原文**:[打开原文](https://www.jiqizhixin.com/articles/2026-06-05-10)