CorVer方法:基于语料库接地的轻量级过程监督,用于提升事实问答准确性
原帖
**超越数学与代码的可验证奖励:面向事实问答的轻量级语料库接地过程监督**
_Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering_
> 本文提出CorVer方法,用于提升知识密集型问答的事实准确性。传统强化学习中的奖励设计存在困难,现有神经验证器成本高且不可靠。CorVer使用基于维基百科共现统计的语料库接地信号,仅需0.5B提取器和单次语料库查询,实现句子级奖励并映射到令牌级优势。在6个指令调优模型和5个问答基准的30个实验单元中,CorVer平均在TriviaQA上提升4.1个百分点,并在20个可行配置中的18个单元中优于四个神经验证器基线,训练速度快4.8至8.4倍。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.29648)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了一种名为CorVer的新方法,用于为知识密集型问答任务提供可验证的奖励信号。该方法使用基于维基百科共现统计的语料库接地信号,仅需0.5B提取器和单次语料库查询,即可实现句子级奖励并映射到令牌级优势。实验表明,CorVer平均在TriviaQA上提升了4.1个百分点,并在20个可行配置中的18个单元中优于四个神经验证器基线。
答案说明
CorVer是一种用于事实问答的轻量级语料库接地过程监督方法,它通过基于维基百科共现统计的信号来构建奖励,以提升大语言模型在知识密集型问答中的事实准确性。
这篇帖子回答的问题
- CorVer方法如何为事实问答任务提供奖励信号?
核心观点
- 本文介绍了一种名为CorVer的新方法,用于为知识密集型问答任务提供可验证的奖励信号。该方法使用基于维基百科共现统计的语料库接地信号,仅需0.5B提取器和单次语料库查询,即可实现句子级奖励并映射到令牌级优势。实验表明,CorVer平均在TriviaQA上提升了4.1个百分点,并在20个可行配置中的18个单元中优于四个神经验证器基线。
关键实体
- CorVer
- 维基百科