CEPO:使用对比证据策略优化的RLVR自蒸馏方法
原帖
**CEPO:使用对比证据策略优化的RLVR自蒸馏方法**
_CEPO: RLVR Self-Distillation using Contrastive Evidence Policy Optimization_
> 本文提出了一种名为对比证据策略优化(CEPO)的新方法,用于改进强化学习与可验证奖励(RLVR)在语言模型训练中的应用。传统RLVR中,所有token都获得相同的奖励信号,这难以区分关键推理步骤与填充内容。CEPO通过引入对比证据,同时考虑正确答案和错误答案的影响,更精确地识别关键推理token,避免信息泄漏问题。实验表明,在2B和4B规模的多模态数学推理基准测试中,CEPO的平均准确率分别达到43.43%和60.56%,优于传统GRPO方法。该方法在保持安全性的同时提升了训练效率,代码已开源。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.19436)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文提出了一种名为对比证据策略优化(CEPO)的新方法,用于改进强化学习与可验证奖励(RLVR)在语言模型训练中的应用。传统RLVR中,所有token都获得相同的奖励信号,这难以区分关键推理步骤与填充内容。CEPO通过引入对比证据,同时考虑正确答案和错误答案的影响,更精确地识别关键推理token,避免信息泄漏问题。实验表明,在2B和4B规模的多模态数学推理基准测试中,CEPO的平均准确率分别达到43.43%和60.56%,优于传统GRPO方法。该方法在保持安全性的同时提升了训练效率,代码已开源。
答案说明
CEPO是一种改进的RLVR训练方法,通过引入对比证据来更精确地识别关键推理token,避免信息泄漏,并在多模态数学推理基准上提升了准确率。
这篇帖子回答的问题
- CEPO方法如何改进传统RLVR训练?
- CEPO在实验中的表现如何?
核心观点
- CEPO通过引入对比证据,解决了传统RLVR中奖励信号无法区分关键推理token的问题。
- 在2B和4B规模的多模态数学推理基准测试中,CEPO的平均准确率优于传统GRPO方法。
FAQ
- Q: CEPO方法的核心创新是什么?
- A: CEPO通过引入对比证据,同时考虑正确答案和错误答案的影响,来更精确地识别关键推理token,从而避免信息泄漏问题。
- Q: CEPO相比传统GRPO方法有什么优势?
- A: 在2B和4B规模的多模态数学推理基准测试中,CEPO的平均准确率分别达到43.43%和60.56%,优于传统GRPO方法。
关键实体
- CEPO
- RLVR
- GRPO
- HuggingFace Daily Papers