注意力机制

GQLA：面向硬件自适应大语言模型解码的分组查询潜在注意力机制

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:13.041Z

本文介绍了一种名为GQLA的注意力机制，它是对DeepSeek-V2/V3中使用的MLA机制的最小化改进。该技术通过在同一参数集上提供MQA吸收路径和带扩展缓存的GQA路径，允许运行时根据目标硬件（如H100或H20）自动选择最优解码路径，无需重新训练或定制内核。据帖子称，通过将预训练GQA检查点转换为GQLA模型，可在MQA吸收路径上将每令牌KV缓存压缩至GQA基线的28.125%。

精选帖子

GQLA：面向硬件自适应大语言模型解码的分组查询潜在注意力机制

相关作者