**GQLA:面向硬件自适应大语言模型解码的分组查询潜在注意力**

_GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding_

> 本文提出GQLA,一种对MLA(DeepSeek-V2/V3中使用的注意力机制)的最小化改进。GQLA在同一参数集上暴露两条解码路径:一条是与MLA相同的MQA吸收路径,另一条是带有每组扩展缓存的GQA路径。运行时可根据目标硬件(如H100或H20)自动选择最优路径,无需重新训练或定制内核,从而在单一权重集下适配不同硬件的计算-带宽比。此外,通过将预训练GQA检查点转换为GQLA模型,可在MQA吸收路径上将每令牌KV缓存压缩至GQA基线的28.125%,同时保持GQA路径上的结构化流量。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15250)