**Parallax:面向语言建模的参数化局部线性注意力机制**

_Parallax: Parameterized Local Linear Attention for Language Modeling_

> 论文提出Parallax,一种可扩展的参数化局部线性注意力(LLA)机制,用于改进大语言模型(LLM)。通过消除LLA中的数值求解器并引入额外的查询投影器,Parallax在保持计算效率的同时提升了注意力机制的偏差-方差权衡。作者设计了一种硬件感知算法,其算术强度优于FlashAttention,并在0.6B和1.7B规模的预训练中展示了持续的困惑度改进。此外,研究首次实证了注意力机制与优化器(Muon)的协同设计,实现了性能的帕累托提升。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.29157)