PUMA框架:通过语义收敛检测实现大型推理模型的高效早退
原帖
**当推理收敛时停止:面向推理模型的语义保留早退方法**
_Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models_
> 大型推理模型(LRMs)通过生成长链式思维(CoT)实现强大性能,但常因过度推理而浪费算力和增加延迟。现有早退方法主要依赖答案层面的信号,但可能触发过早退出导致准确性下降。本文提出PUMA框架,通过检测推理步骤的语义冗余来判断推理是否收敛,并结合答案验证,在五款模型和五个基准测试中平均减少26.2%的token,同时保持答案准确性和推理链完整性。研究还验证了该信号在代码生成和视觉语言推理等任务中的通用性。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.17672)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍PUMA框架,通过检测推理步骤的语义冗余来判断推理是否收敛,结合答案验证,在五款模型和五个基准测试中平均减少26.2%的token,同时保持答案准确性和推理链完整性。
答案说明
大型推理模型常因过度推理浪费算力和增加延迟。PUMA框架通过检测推理步骤的语义冗余来判断收敛,结合答案验证,在五款模型和五个基准测试中平均减少26.2%的token,同时保持准确性和推理链完整性。
这篇帖子回答的问题
- PUMA框架如何帮助大型推理模型减少计算开销?
核心观点
- PUMA框架通过检测推理步骤的语义冗余来判断收敛,在五款模型和五个基准测试中平均减少26.2%的token,同时保持答案准确性和推理链完整性。
FAQ
- Q: PUMA框架在减少token的同时如何保证准确性?
- A: 框架结合答案验证,在五款模型和五个基准测试中平均减少26.2%的token,同时保持答案准确性和推理链完整性。
关键实体
- PUMA框架
- 大型推理模型