**ThriftAttention:面向长上下文FP4注意力的选择性混合精度方法**

_ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention_

> 本文提出ThriftAttention,一种用于长上下文任务的低比特注意力变体。该方法通过两阶段流程,先利用启发式规则快速选出少数重要的查询-键块对(约5%),以FP16精度计算,其余部分用FP4精度,最后通过在线softmax合并输出。实验表明,该方法能在接近FP4推理效率的同时,恢复89.1%的FP4至FP16性能差距,尤其在长序列上优势更明显,有效缓解了低精度在长上下文中的质量下降问题。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.23081)