**超越数学与代码的可验证奖励:面向事实问答的轻量级语料库接地过程监督**

_Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering_

> 本文提出CorVer方法,用于提升知识密集型问答的事实准确性。传统强化学习中的奖励设计存在困难,现有神经验证器成本高且不可靠。CorVer使用基于维基百科共现统计的语料库接地信号,仅需0.5B提取器和单次语料库查询,实现句子级奖励并映射到令牌级优势。在6个指令调优模型和5个问答基准的30个实验单元中,CorVer平均在TriviaQA上提升4.1个百分点,并在20个可行配置中的18个单元中优于四个神经验证器基线,训练速度快4.8至8.4倍。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.29648)