ThriftAttention:一种面向长上下文的FP4注意力选择性混合精度方法
本文介绍了ThriftAttention,这是一种用于长上下文任务的低比特注意力变体。该方法采用两阶段流程,利用启发式规则选出约5%的重要查询-键块对以FP16精度计算,其余部分用FP4精度,最后通过在线softmax合并输出。实验表明,该方法能在接近FP4推理效率的同时,恢复89.1%的FP4至FP16性能差距,尤其在长序列上优势更明显。
First-Principle 上关于「注意力优化」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍了ThriftAttention,这是一种用于长上下文任务的低比特注意力变体。该方法采用两阶段流程,利用启发式规则选出约5%的重要查询-键块对以FP16精度计算,其余部分用FP4精度,最后通过在线softmax合并输出。实验表明,该方法能在接近FP4推理效率的同时,恢复89.1%的FP4至FP16性能差距,尤其在长序列上优势更明显。
根据HuggingFace Daily Papers于2026年5月19日发布的论文信息,CompactAttention是一种针对长上下文大语言模型分块预填充的注意力优化机制,它在LLaMA-3.1-8B-Instruct模型上于RULER基准测试中保持了接近稠密注意力的准确性,并在128K上下文长度下实现了高达2.72倍的注意力加速。