自我修正机制

大型推理模型中的隐藏批评机制：错误恢复与自我修正研究

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:19.587Z

本文研究了大型推理模型（LRMs）如何从推理链中的错误中恢复。研究发现，即使推理过程存在错误且未被口头纠正，模型仍可能在思考结束后得出正确答案，表明存在隐藏的批评能力。研究通过特征空间分析识别了一个高度可解释的批评向量，利用该向量操纵潜在表示可提高模型错误检测能力，并在不增加训练成本的情况下提升测试时缩放性能。

精选帖子

大型推理模型中的隐藏批评机制：错误恢复与自我修正研究

相关作者