**无监督过程奖励模型:无需人工标注即可提升大语言模型推理能力**

_Unsupervised Process Reward Models_

> 本文提出了一种无需人工监督的无监督过程奖励模型(uPRM)训练方法。该模型通过基于大语言模型下一个词概率的评分函数,批量评估推理轨迹中的首个错误步骤位置。实验表明,uPRM在识别首个错误步骤上比LLM-as-a-Judge方法准确率提升高达15%,在推理时扩展任务中性能接近有监督PRM并比多数投票基线提升6.9%,在强化学习中比有监督PRM实现更稳健的策略优化。这项研究为复杂推理任务的可扩展奖励建模开辟了新路径。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.10158)