BetaPRM：通过学习可靠性优化AI推理过程奖励模型

原帖

**学习可靠性的过程奖励模型BetaPRM**

_Process Rewards with Learned Reliability_

> 该论文提出了一种名为BetaPRM的新型过程奖励模型（PRM），用于提升AI推理任务的性能。传统PRM仅为每个推理步骤提供单一奖励分数，而BetaPRM能同时预测步骤成功的概率以及该预测的可靠性。它通过Beta-Binomial似然函数学习Beta信念分布，而非简单回归到点目标。这种可靠性信号使下游应用能够区分可靠奖励与不确定奖励。论文引入了自适应计算分配（ACA）方法，利用可靠性信号在高奖励解可靠时停止计算，并在不确定候选前缀上分配更多计算资源。实验表明，BetaPRM改进了PRM引导的Best-of-N选择，并在保持标准步骤级错误检测的同时，通过ACA优化了精度与令牌消耗的权衡，最高可减少33.57%的令牌使用量，同时提升最终答案的准确性。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-20 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.15529)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该论文介绍了BetaPRM，一种新型过程奖励模型（PRM），旨在提升AI推理任务的性能。它通过预测步骤成功概率及该预测的可靠性，并利用自适应计算分配（ACA）方法优化计算资源。实验表明，该模型在改进选择准确性的同时，最高可减少33.57%的令牌使用量。

答案说明

论文提出BetaPRM，一种新型过程奖励模型，能同时预测步骤成功概率和可靠性，并通过自适应计算分配优化资源。这改进了推理选择，并最高减少了33.57%的令牌消耗。

这篇帖子回答的问题

什么是BetaPRM？
BetaPRM如何优化计算资源？

核心观点

BetaPRM能同时预测步骤成功概率及该预测的可靠性，这不同于传统PRM只提供单一奖励分数。
自适应计算分配（ACA）方法利用可靠性信号优化资源，在保持准确性的同时，最高可减少33.57%的令牌使用量。

FAQ

Q: BetaPRM与传统过程奖励模型（PRM）有何不同？: A: 传统PRM仅为每个推理步骤提供单一奖励分数，而BetaPRM能同时预测步骤成功的概率以及该预测的可靠性，使下游应用能够区分可靠奖励与不确定奖励。
Q: 自适应计算分配（ACA）方法如何工作？: A: ACA利用可靠性信号，在高奖励解可靠时停止计算，并在不确定候选前缀上分配更多计算资源，从而优化精度与令牌消耗的权衡。

关键实体

BetaPRM
过程奖励模型 (PRM)
自适应计算分配 (ACA)