混合精度推理

ThriftAttention：一种面向长上下文的FP4注意力选择性混合精度方法

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:20.519Z

本文介绍了ThriftAttention，这是一种用于长上下文任务的低比特注意力变体。该方法采用两阶段流程，利用启发式规则选出约5%的重要查询-键块对以FP16精度计算，其余部分用FP4精度，最后通过在线softmax合并输出。实验表明，该方法能在接近FP4推理效率的同时，恢复89.1%的FP4至FP16性能差距，尤其在长序列上优势更明显。

精选帖子

ThriftAttention：一种面向长上下文的FP4注意力选择性混合精度方法

相关作者