**当推理收敛时停止:面向推理模型的语义保留早退方法**

_Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models_

> 大型推理模型(LRMs)通过生成长链式思维(CoT)实现强大性能,但常因过度推理而浪费算力和增加延迟。现有早退方法主要依赖答案层面的信号,但可能触发过早退出导致准确性下降。本文提出PUMA框架,通过检测推理步骤的语义冗余来判断推理是否收敛,并结合答案验证,在五款模型和五个基准测试中平均减少26.2%的token,同时保持答案准确性和推理链完整性。研究还验证了该信号在代码生成和视觉语言推理等任务中的通用性。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.17672)