**学习可靠性的过程奖励模型BetaPRM**

_Process Rewards with Learned Reliability_

> 该论文提出了一种名为BetaPRM的新型过程奖励模型(PRM),用于提升AI推理任务的性能。传统PRM仅为每个推理步骤提供单一奖励分数,而BetaPRM能同时预测步骤成功的概率以及该预测的可靠性。它通过Beta-Binomial似然函数学习Beta信念分布,而非简单回归到点目标。这种可靠性信号使下游应用能够区分可靠奖励与不确定奖励。论文引入了自适应计算分配(ACA)方法,利用可靠性信号在高奖励解可靠时停止计算,并在不确定候选前缀上分配更多计算资源。实验表明,BetaPRM改进了PRM引导的Best-of-N选择,并在保持标准步骤级错误检测的同时,通过ACA优化了精度与令牌消耗的权衡,最高可减少33.57%的令牌使用量,同时提升最终答案的准确性。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15529)