**解读大型推理模型中的批评机制**

_Decoding the Critique Mechanism in Large Reasoning Models_

> 本文研究了大型推理模型(LRMs)如何从错误中恢复。作者发现,即使推理链中存在错误且未口头纠正,模型仍可能在思考过程结束后得出正确答案。这表明存在一种隐藏的批评能力帮助模型检测错误并触发自我修正。研究通过特征空间分析识别了一个高度可解释的批评向量,利用该向量操纵潜在表示可提高模型错误检测能力,并在不增加训练成本的情况下提升测试时缩放性能。该工作为理解和改进LRMs的自我验证机制提供了新方向。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2603.16331)