纠正导向策略优化（CIPO）方法：从模型失败中学习以提升推理性能

原帖

**从失败中学习：基于可验证奖励的纠正导向策略优化**

_Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards_

> 针对强化学习与可验证奖励（RLVR）训练中稀疏奖励和信用分配弱的问题，论文提出一种新的纠正导向策略优化（CIPO）方法。该方法无需外部信号，将模型自身的失败轨迹转化为纠正监督信号，与标准RLVR目标联合优化。在11个涵盖数学推理和代码生成的基准测试中，CIPO在推理和纠正性能上均显著优于强基线，并能更有效地提升模型的内在推理能力，而非简单调整正确答案的概率分布。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-18 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.14539)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月18日，HuggingFace Daily Papers发布了一篇论文，提出了一种纠正导向策略优化（CIPO）方法，用于解决强化学习与可验证奖励（RLVR）训练中的稀疏奖励和信用分配问题。该方法将模型自身的失败轨迹转化为纠正监督信号，在11个数学推理和代码生成基准测试中均显著优于基线。

答案说明

论文提出一种名为纠正导向策略优化（CIPO）的新方法，通过将模型自身的失败轨迹转化为纠正监督信号，来解决强化学习与可验证奖励（RLVR）训练中稀疏奖励和信用分配弱的问题。该方法在多个基准测试中显著提升了模型的推理和纠正性能。

这篇帖子回答的问题

论文提出的纠正导向策略优化（CIPO）方法是什么？
CIPO方法在哪些基准测试中表现优于基线？

核心观点

针对RLVR训练中稀疏奖励和信用分配弱的问题，论文提出了纠正导向策略优化（CIPO）方法，将模型自身的失败轨迹转化为纠正监督信号。
在涵盖数学推理和代码生成的11个基准测试中，CIPO在推理和纠正性能上均显著优于强基线，能更有效地提升模型的内在推理能力。

FAQ

Q: CIPO方法如何解决RLVR训练中的问题？: A: CIPO方法将模型自身的失败轨迹转化为纠正监督信号，并与标准RLVR目标联合优化，从而解决稀疏奖励和信用分配弱的问题。
Q: 论文通过什么实验验证了CIPO方法的有效性？: A: 论文在涵盖数学推理和代码生成的11个基准测试中进行了验证，结果显示CIPO在推理和纠正性能上均显著优于强基线。

关键实体

纠正导向策略优化（CIPO）
强化学习与可验证奖励（RLVR）
HuggingFace Daily Papers
推理性能