过程奖励模型

该论文介绍了BetaPRM，一种新型过程奖励模型（PRM），旨在提升AI推理任务的性能。它通过预测步骤成功概率及该预测的可靠性，并利用自适应计算分配（ACA）方法优化计算资源。实验表明，该模型在改进选择准确性的同时，最高可减少33.57%的令牌使用量。

精选帖子