CompactAttention:通过块联合KV选择加速分块预填充
原帖
**CompactAttention:通过块联合KV选择加速分块预填充**
_CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection_
> 论文提出了CompactAttention机制,用于优化长上下文大语言模型中分块预填充的注意力计算。该方法将二维块稀疏掩码视为KV选择信号,通过查询块联合和组内联合,将其转换为GQA感知的按组KV块表,从而在保留所有被选KV块的同时实现高效访问,无需显式KV压缩。在LLaMA-3.1-8B-Instruct模型上,CompactAttention在RULER基准测试中保持了接近稠密注意力的准确性,并在128K上下文长度下实现了高达2.72倍的注意力加速。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.16839)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
根据HuggingFace Daily Papers于2026年5月19日发布的论文信息,CompactAttention是一种针对长上下文大语言模型分块预填充的注意力优化机制,它在LLaMA-3.1-8B-Instruct模型上于RULER基准测试中保持了接近稠密注意力的准确性,并在128K上下文长度下实现了高达2.72倍的注意力加速。
答案说明
CompactAttention机制优化长上下文LLM的分块预填充注意力计算,通过查询块联合和组内联合将二维块稀疏掩码转换为GQA感知的按组KV块表,在LLaMA-3.1-8B-Instruct模型上实现了128K上下文下高达2.72倍的加速,同时保持了接近稠密注意力的准确性。
这篇帖子回答的问题
- CompactAttention机制是如何加速长上下文大语言模型分块预填充的注意力计算的?
- CompactAttention在LLaMA-3.1-8B-Instruct模型上的性能表现如何?
核心观点
- CompactAttention机制通过将二维块稀疏掩码转换为GQA感知的按组KV块表,优化长上下文大语言模型的分块预填充注意力计算,并且无需显式KV压缩。
- 在LLaMA-3.1-8B-Instruct模型上,CompactAttention在128K上下文长度下实现了高达2.72倍的注意力加速,同时保持了接近稠密注意力的准确性。
FAQ
- Q: CompactAttention方法的核心思路是什么?
- A: 其核心思路是将二维块稀疏掩码视为KV选择信号,通过查询块联合和组内联合,转换为GQA感知的按组KV块表,从而实现高效访问,无需显式KV压缩。
- Q: CompactAttention在实验中表现如何?
- A: 根据论文描述,在LLaMA-3.1-8B-Instruct模型上,CompactAttention在RULER基准测试中保持了接近稠密注意力的准确性,并在128K上下文长度下实现了高达2.72倍的注意力加速。
关键实体
- CompactAttention
- 分块预填充
- GQA(分组查询注意力)
- LLaMA-3.1-8B-Instruct