CompactAttention：通过块联合KV选择加速分块预填充

原帖

**CompactAttention：通过块联合KV选择加速分块预填充**

_CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection_

> 论文提出了CompactAttention机制，用于优化长上下文大语言模型中分块预填充的注意力计算。该方法将二维块稀疏掩码视为KV选择信号，通过查询块联合和组内联合，将其转换为GQA感知的按组KV块表，从而在保留所有被选KV块的同时实现高效访问，无需显式KV压缩。在LLaMA-3.1-8B-Instruct模型上，CompactAttention在RULER基准测试中保持了接近稠密注意力的准确性，并在128K上下文长度下实现了高达2.72倍的注意力加速。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.16839)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

根据HuggingFace Daily Papers于2026年5月19日发布的论文信息，CompactAttention是一种针对长上下文大语言模型分块预填充的注意力优化机制，它在LLaMA-3.1-8B-Instruct模型上于RULER基准测试中保持了接近稠密注意力的准确性，并在128K上下文长度下实现了高达2.72倍的注意力加速。

答案说明

CompactAttention机制优化长上下文LLM的分块预填充注意力计算，通过查询块联合和组内联合将二维块稀疏掩码转换为GQA感知的按组KV块表，在LLaMA-3.1-8B-Instruct模型上实现了128K上下文下高达2.72倍的加速，同时保持了接近稠密注意力的准确性。

这篇帖子回答的问题

CompactAttention机制是如何加速长上下文大语言模型分块预填充的注意力计算的？
CompactAttention在LLaMA-3.1-8B-Instruct模型上的性能表现如何？

核心观点

CompactAttention机制通过将二维块稀疏掩码转换为GQA感知的按组KV块表，优化长上下文大语言模型的分块预填充注意力计算，并且无需显式KV压缩。
在LLaMA-3.1-8B-Instruct模型上，CompactAttention在128K上下文长度下实现了高达2.72倍的注意力加速，同时保持了接近稠密注意力的准确性。

FAQ

Q: CompactAttention方法的核心思路是什么？: A: 其核心思路是将二维块稀疏掩码视为KV选择信号，通过查询块联合和组内联合，转换为GQA感知的按组KV块表，从而实现高效访问，无需显式KV压缩。
Q: CompactAttention在实验中表现如何？: A: 根据论文描述，在LLaMA-3.1-8B-Instruct模型上，CompactAttention在RULER基准测试中保持了接近稠密注意力的准确性，并在128K上下文长度下实现了高达2.72倍的注意力加速。

关键实体

CompactAttention
分块预填充
GQA（分组查询注意力）
LLaMA-3.1-8B-Instruct