**从失败中学习:基于可验证奖励的纠正导向策略优化**

_Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards_

> 针对强化学习与可验证奖励(RLVR)训练中稀疏奖励和信用分配弱的问题,论文提出一种新的纠正导向策略优化(CIPO)方法。该方法无需外部信号,将模型自身的失败轨迹转化为纠正监督信号,与标准RLVR目标联合优化。在11个涵盖数学推理和代码生成的基准测试中,CIPO在推理和纠正性能上均显著优于强基线,并能更有效地提升模型的内在推理能力,而非简单调整正确答案的概率分布。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14539)