**CompactAttention:通过块联合KV选择加速分块预填充**

_CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection_

> 论文提出了CompactAttention机制,用于优化长上下文大语言模型中分块预填充的注意力计算。该方法将二维块稀疏掩码视为KV选择信号,通过查询块联合和组内联合,将其转换为GQA感知的按组KV块表,从而在保留所有被选KV块的同时实现高效访问,无需显式KV压缩。在LLaMA-3.1-8B-Instruct模型上,CompactAttention在RULER基准测试中保持了接近稠密注意力的准确性,并在128K上下文长度下实现了高达2.72倍的注意力加速。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.16839)