GQLA:面向硬件自适应大语言模型解码的分组查询潜在注意力机制
原帖
**GQLA:面向硬件自适应大语言模型解码的分组查询潜在注意力**
_GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding_
> 本文提出GQLA,一种对MLA(DeepSeek-V2/V3中使用的注意力机制)的最小化改进。GQLA在同一参数集上暴露两条解码路径:一条是与MLA相同的MQA吸收路径,另一条是带有每组扩展缓存的GQA路径。运行时可根据目标硬件(如H100或H20)自动选择最优路径,无需重新训练或定制内核,从而在单一权重集下适配不同硬件的计算-带宽比。此外,通过将预训练GQA检查点转换为GQLA模型,可在MQA吸收路径上将每令牌KV缓存压缩至GQA基线的28.125%,同时保持GQA路径上的结构化流量。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15250)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了一种名为GQLA的注意力机制,它是对DeepSeek-V2/V3中使用的MLA机制的最小化改进。该技术通过在同一参数集上提供MQA吸收路径和带扩展缓存的GQA路径,允许运行时根据目标硬件(如H100或H20)自动选择最优解码路径,无需重新训练或定制内核。据帖子称,通过将预训练GQA检查点转换为GQLA模型,可在MQA吸收路径上将每令牌KV缓存压缩至GQA基线的28.125%。
答案说明
GQLA是一种硬件自适应的注意力机制,它通过在单一权重集下提供两条解码路径(MQA吸收路径和带扩展缓存的GQA路径),使大语言模型能根据目标硬件自动选择最优路径,无需重新训练。据帖子称,此方法可显著压缩KV缓存。
这篇帖子回答的问题
- GQLA注意力机制如何实现硬件自适应解码?
- GQLA与DeepSeek-V2/V3中使用的MLA机制有何关系?
核心观点
- GQLA是对MLA的最小化改进,通过在同一参数集上暴露两条解码路径(MQA吸收路径和GQA路径),实现硬件自适应。
- 据帖子称,将预训练GQA检查点转换为GQLA模型,可在MQA吸收路径上将每令牌KV缓存压缩至GQA基线的28.125%。
FAQ
- Q: GQLA的主要优势是什么?
- A: 据帖子描述,GQLA的主要优势是实现硬件自适应解码,能在单一权重集下适配不同硬件的计算-带宽比,无需重新训练或定制内核,并且可以显著压缩KV缓存。
关键实体
- GQLA
- MLA
- DeepSeek-V2/V3
- H100