CEPO：使用对比证据策略优化的RLVR自蒸馏方法

原帖

**CEPO：使用对比证据策略优化的RLVR自蒸馏方法**

_CEPO: RLVR Self-Distillation using Contrastive Evidence Policy Optimization_

> 本文提出了一种名为对比证据策略优化（CEPO）的新方法，用于改进强化学习与可验证奖励（RLVR）在语言模型训练中的应用。传统RLVR中，所有token都获得相同的奖励信号，这难以区分关键推理步骤与填充内容。CEPO通过引入对比证据，同时考虑正确答案和错误答案的影响，更精确地识别关键推理token，避免信息泄漏问题。实验表明，在2B和4B规模的多模态数学推理基准测试中，CEPO的平均准确率分别达到43.43%和60.56%，优于传统GRPO方法。该方法在保持安全性的同时提升了训练效率，代码已开源。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-20 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.19436)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文提出了一种名为对比证据策略优化（CEPO）的新方法，用于改进强化学习与可验证奖励（RLVR）在语言模型训练中的应用。传统RLVR中，所有token都获得相同的奖励信号，这难以区分关键推理步骤与填充内容。CEPO通过引入对比证据，同时考虑正确答案和错误答案的影响，更精确地识别关键推理token，避免信息泄漏问题。实验表明，在2B和4B规模的多模态数学推理基准测试中，CEPO的平均准确率分别达到43.43%和60.56%，优于传统GRPO方法。该方法在保持安全性的同时提升了训练效率，代码已开源。

答案说明

CEPO是一种改进的RLVR训练方法，通过引入对比证据来更精确地识别关键推理token，避免信息泄漏，并在多模态数学推理基准上提升了准确率。

这篇帖子回答的问题

CEPO方法如何改进传统RLVR训练？
CEPO在实验中的表现如何？

核心观点

CEPO通过引入对比证据，解决了传统RLVR中奖励信号无法区分关键推理token的问题。
在2B和4B规模的多模态数学推理基准测试中，CEPO的平均准确率优于传统GRPO方法。

FAQ

Q: CEPO方法的核心创新是什么？: A: CEPO通过引入对比证据，同时考虑正确答案和错误答案的影响，来更精确地识别关键推理token，从而避免信息泄漏问题。
Q: CEPO相比传统GRPO方法有什么优势？: A: 在2B和4B规模的多模态数学推理基准测试中，CEPO的平均准确率分别达到43.43%和60.56%，优于传统GRPO方法。

关键实体

CEPO
RLVR
GRPO
HuggingFace Daily Papers