**你的推理模型是否隐含地知道何时停止思考?**

_Does Your Reasoning Model Implicitly Know When to Stop Thinking?_

> 该研究发现,大型推理模型通过长链推理提升了复杂任务表现,但常导致冗余和效率低下。研究揭示模型实际上隐含地知道何时停止思考,但这一能力被现有采样范式所掩盖。为此,研究提出了SAGE采样范式和SAGE-RL方法,能有效利用高效推理模式,在多个数学基准测试中显著提升了推理的准确性和效率。

**来源信息**
- **来源**:字节 Seed:Research Papers(网页内嵌数据)
- **分类**:论文
- **原文**:[打开原文](https://arxiv.org/pdf/2602.08354)