CorVer方法：基于语料库接地的轻量级过程监督，用于提升事实问答准确性

原帖

**超越数学与代码的可验证奖励：面向事实问答的轻量级语料库接地过程监督**

_Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering_

> 本文提出CorVer方法，用于提升知识密集型问答的事实准确性。传统强化学习中的奖励设计存在困难，现有神经验证器成本高且不可靠。CorVer使用基于维基百科共现统计的语料库接地信号，仅需0.5B提取器和单次语料库查询，实现句子级奖励并映射到令牌级优势。在6个指令调优模型和5个问答基准的30个实验单元中，CorVer平均在TriviaQA上提升4.1个百分点，并在20个可行配置中的18个单元中优于四个神经验证器基线，训练速度快4.8至8.4倍。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-29 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.29648)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了一种名为CorVer的新方法，用于为知识密集型问答任务提供可验证的奖励信号。该方法使用基于维基百科共现统计的语料库接地信号，仅需0.5B提取器和单次语料库查询，即可实现句子级奖励并映射到令牌级优势。实验表明，CorVer平均在TriviaQA上提升了4.1个百分点，并在20个可行配置中的18个单元中优于四个神经验证器基线。

答案说明

CorVer是一种用于事实问答的轻量级语料库接地过程监督方法，它通过基于维基百科共现统计的信号来构建奖励，以提升大语言模型在知识密集型问答中的事实准确性。

这篇帖子回答的问题

CorVer方法如何为事实问答任务提供奖励信号？

核心观点

本文介绍了一种名为CorVer的新方法，用于为知识密集型问答任务提供可验证的奖励信号。该方法使用基于维基百科共现统计的语料库接地信号，仅需0.5B提取器和单次语料库查询，即可实现句子级奖励并映射到令牌级优势。实验表明，CorVer平均在TriviaQA上提升了4.1个百分点，并在20个可行配置中的18个单元中优于四个神经验证器基线。

关键实体

CorVer
维基百科