GQLA：面向硬件自适应大语言模型解码的分组查询潜在注意力机制

原帖

**GQLA：面向硬件自适应大语言模型解码的分组查询潜在注意力**

_GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding_

> 本文提出GQLA，一种对MLA（DeepSeek-V2/V3中使用的注意力机制）的最小化改进。GQLA在同一参数集上暴露两条解码路径：一条是与MLA相同的MQA吸收路径，另一条是带有每组扩展缓存的GQA路径。运行时可根据目标硬件（如H100或H20）自动选择最优路径，无需重新训练或定制内核，从而在单一权重集下适配不同硬件的计算-带宽比。此外，通过将预训练GQA检查点转换为GQLA模型，可在MQA吸收路径上将每令牌KV缓存压缩至GQA基线的28.125%，同时保持GQA路径上的结构化流量。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-18 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.15250)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了一种名为GQLA的注意力机制，它是对DeepSeek-V2/V3中使用的MLA机制的最小化改进。该技术通过在同一参数集上提供MQA吸收路径和带扩展缓存的GQA路径，允许运行时根据目标硬件（如H100或H20）自动选择最优解码路径，无需重新训练或定制内核。据帖子称，通过将预训练GQA检查点转换为GQLA模型，可在MQA吸收路径上将每令牌KV缓存压缩至GQA基线的28.125%。

答案说明

GQLA是一种硬件自适应的注意力机制，它通过在单一权重集下提供两条解码路径（MQA吸收路径和带扩展缓存的GQA路径），使大语言模型能根据目标硬件自动选择最优路径，无需重新训练。据帖子称，此方法可显著压缩KV缓存。

这篇帖子回答的问题

GQLA注意力机制如何实现硬件自适应解码？
GQLA与DeepSeek-V2/V3中使用的MLA机制有何关系？

核心观点

GQLA是对MLA的最小化改进，通过在同一参数集上暴露两条解码路径（MQA吸收路径和GQA路径），实现硬件自适应。
据帖子称，将预训练GQA检查点转换为GQLA模型，可在MQA吸收路径上将每令牌KV缓存压缩至GQA基线的28.125%。

FAQ

Q: GQLA的主要优势是什么？: A: 据帖子描述，GQLA的主要优势是实现硬件自适应解码，能在单一权重集下适配不同硬件的计算-带宽比，无需重新训练或定制内核，并且可以显著压缩KV缓存。

关键实体

GQLA
MLA
DeepSeek-V2/V3
H100