模型加速

CompactAttention：通过块联合KV选择加速分块预填充

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:11.933Z

根据HuggingFace Daily Papers于2026年5月19日发布的论文信息，CompactAttention是一种针对长上下文大语言模型分块预填充的注意力优化机制，它在LLaMA-3.1-8B-Instruct模型上于RULER基准测试中保持了接近稠密注意力的准确性，并在128K上下文长度下实现了高达2.72倍的注意力加速。

精选帖子

CompactAttention：通过块联合KV选择加速分块预填充

相关作者