GQLA:面向硬件自适应大语言模型解码的分组查询潜在注意力机制
本文介绍了一种名为GQLA的注意力机制,它是对DeepSeek-V2/V3中使用的MLA机制的最小化改进。该技术通过在同一参数集上提供MQA吸收路径和带扩展缓存的GQA路径,允许运行时根据目标硬件(如H100或H20)自动选择最优解码路径,无需重新训练或定制内核。据帖子称,通过将预训练GQA检查点转换为GQLA模型,可在MQA吸收路径上将每令牌KV缓存压缩至GQA基线的28.125%。
First-Principle 上关于「注意力机制」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍了一种名为GQLA的注意力机制,它是对DeepSeek-V2/V3中使用的MLA机制的最小化改进。该技术通过在同一参数集上提供MQA吸收路径和带扩展缓存的GQA路径,允许运行时根据目标硬件(如H100或H20)自动选择最优解码路径,无需重新训练或定制内核。据帖子称,通过将预训练GQA检查点转换为GQLA模型,可在MQA吸收路径上将每令牌KV缓存压缩至GQA基线的28.125%。