ThriftAttention：一种面向长上下文的FP4注意力选择性混合精度方法

原帖

**ThriftAttention：面向长上下文FP4注意力的选择性混合精度方法**

_ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention_

> 本文提出ThriftAttention，一种用于长上下文任务的低比特注意力变体。该方法通过两阶段流程，先利用启发式规则快速选出少数重要的查询-键块对（约5%），以FP16精度计算，其余部分用FP4精度，最后通过在线softmax合并输出。实验表明，该方法能在接近FP4推理效率的同时，恢复89.1%的FP4至FP16性能差距，尤其在长序列上优势更明显，有效缓解了低精度在长上下文中的质量下降问题。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-26 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.23081)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了ThriftAttention，这是一种用于长上下文任务的低比特注意力变体。该方法采用两阶段流程，利用启发式规则选出约5%的重要查询-键块对以FP16精度计算，其余部分用FP4精度，最后通过在线softmax合并输出。实验表明，该方法能在接近FP4推理效率的同时，恢复89.1%的FP4至FP16性能差距，尤其在长序列上优势更明显。

答案说明

ThriftAttention是一种选择性混合精度方法，通过只对少数重要查询-键块对（约5%）使用高精度（FP16）计算，其余使用低精度（FP4），并在线合并输出，从而在长上下文任务中平衡了推理效率与模型性能。

这篇帖子回答的问题

ThriftAttention如何解决长上下文低精度注意力的质量下降问题？
ThriftAttention的实验效果如何？

核心观点

ThriftAttention通过选择性混合精度（约5%的查询-键块对用FP16，其余用FP4）来优化长上下文推理。
该方法在实验中能恢复大部分（89.1%）低精度导致的性能损失，尤其在长序列上效果显著。

FAQ

Q: ThriftAttention的核心思想是什么？: A: 核心思想是选择性混合精度：仅对约5%被认为重要的查询-键块对使用FP16精度计算，其余大部分使用FP4精度，以平衡效率与性能。
Q: ThriftAttention相比纯FP4或FP16注意力有什么优势？: A: 根据帖子描述，该方法能在接近FP4的推理效率下，恢复大部分（89.1%）因精度降低（从FP16到FP4）导致的性能损失，尤其在长序列上优势更明显。

关键实体

ThriftAttention
HuggingFace Daily Papers