ThriftAttention:一种面向长上下文的FP4注意力选择性混合精度方法
原帖
**ThriftAttention:面向长上下文FP4注意力的选择性混合精度方法**
_ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention_
> 本文提出ThriftAttention,一种用于长上下文任务的低比特注意力变体。该方法通过两阶段流程,先利用启发式规则快速选出少数重要的查询-键块对(约5%),以FP16精度计算,其余部分用FP4精度,最后通过在线softmax合并输出。实验表明,该方法能在接近FP4推理效率的同时,恢复89.1%的FP4至FP16性能差距,尤其在长序列上优势更明显,有效缓解了低精度在长上下文中的质量下降问题。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.23081)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了ThriftAttention,这是一种用于长上下文任务的低比特注意力变体。该方法采用两阶段流程,利用启发式规则选出约5%的重要查询-键块对以FP16精度计算,其余部分用FP4精度,最后通过在线softmax合并输出。实验表明,该方法能在接近FP4推理效率的同时,恢复89.1%的FP4至FP16性能差距,尤其在长序列上优势更明显。
答案说明
ThriftAttention是一种选择性混合精度方法,通过只对少数重要查询-键块对(约5%)使用高精度(FP16)计算,其余使用低精度(FP4),并在线合并输出,从而在长上下文任务中平衡了推理效率与模型性能。
这篇帖子回答的问题
- ThriftAttention如何解决长上下文低精度注意力的质量下降问题?
- ThriftAttention的实验效果如何?
核心观点
- ThriftAttention通过选择性混合精度(约5%的查询-键块对用FP16,其余用FP4)来优化长上下文推理。
- 该方法在实验中能恢复大部分(89.1%)低精度导致的性能损失,尤其在长序列上效果显著。
FAQ
- Q: ThriftAttention的核心思想是什么?
- A: 核心思想是选择性混合精度:仅对约5%被认为重要的查询-键块对使用FP16精度计算,其余大部分使用FP4精度,以平衡效率与性能。
- Q: ThriftAttention相比纯FP4或FP16注意力有什么优势?
- A: 根据帖子描述,该方法能在接近FP4的推理效率下,恢复大部分(89.1%)因精度降低(从FP16到FP4)导致的性能损失,尤其在长序列上优势更明显。
关键实体
- ThriftAttention
- HuggingFace Daily Papers