**CEPO:使用对比证据策略优化的RLVR自蒸馏方法**

_CEPO: RLVR Self-Distillation using Contrastive Evidence Policy Optimization_

> 本文提出了一种名为对比证据策略优化(CEPO)的新方法,用于改进强化学习与可验证奖励(RLVR)在语言模型训练中的应用。传统RLVR中,所有token都获得相同的奖励信号,这难以区分关键推理步骤与填充内容。CEPO通过引入对比证据,同时考虑正确答案和错误答案的影响,更精确地识别关键推理token,避免信息泄漏问题。实验表明,在2B和4B规模的多模态数学推理基准测试中,CEPO的平均准确率分别达到43.43%和60.56%,优于传统GRPO方法。该方法在保持安全性的同时提升了训练效率,代码已开源。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.19436)