PUMA框架：通过语义收敛检测实现大型推理模型的高效早退

原帖

**当推理收敛时停止：面向推理模型的语义保留早退方法**

_Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models_

> 大型推理模型（LRMs）通过生成长链式思维（CoT）实现强大性能，但常因过度推理而浪费算力和增加延迟。现有早退方法主要依赖答案层面的信号，但可能触发过早退出导致准确性下降。本文提出PUMA框架，通过检测推理步骤的语义冗余来判断推理是否收敛，并结合答案验证，在五款模型和五个基准测试中平均减少26.2%的token，同时保持答案准确性和推理链完整性。研究还验证了该信号在代码生成和视觉语言推理等任务中的通用性。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.17672)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍PUMA框架，通过检测推理步骤的语义冗余来判断推理是否收敛，结合答案验证，在五款模型和五个基准测试中平均减少26.2%的token，同时保持答案准确性和推理链完整性。

答案说明

大型推理模型常因过度推理浪费算力和增加延迟。PUMA框架通过检测推理步骤的语义冗余来判断收敛，结合答案验证，在五款模型和五个基准测试中平均减少26.2%的token，同时保持准确性和推理链完整性。

这篇帖子回答的问题

PUMA框架如何帮助大型推理模型减少计算开销？

核心观点

PUMA框架通过检测推理步骤的语义冗余来判断收敛，在五款模型和五个基准测试中平均减少26.2%的token，同时保持答案准确性和推理链完整性。

FAQ

Q: PUMA框架在减少token的同时如何保证准确性？: A: 框架结合答案验证，在五款模型和五个基准测试中平均减少26.2%的token，同时保持答案准确性和推理链完整性。

关键实体

PUMA框架
大型推理模型