RUBRIC-ARROW:面向非可验证领域LLM后训练的交替式点对点评分标准奖励建模
原帖
**RUBRIC-ARROW:面向非可验证领域LLM后训练的交替式点对点评分标准奖励建模**
_RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains_
> 该论文提出RUBRIC-ARROW框架,通过交替训练评分标准生成器和基于标准的评判器,改进大语言模型后训练中的奖励建模。针对主观、非可验证领域中绝对评分困难的问题,该方法采用概率评分规则减少并列情况,并结合阶段特定偏好奖励和交替式GRPO方案,仅使用成对偏好数据进行强化学习训练。实验表明,该方法在奖励建模准确性和下游策略后训练效果上均取得有竞争力的表现。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.29156)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
该论文提出RUBRIC-ARROW框架,通过交替训练评分标准生成器和基于标准的评判器,改进大语言模型后训练中的奖励建模。针对主观、非可验证领域中绝对评分困难的问题,该方法采用概率评分规则减少并列情况,并结合阶段特定偏好奖励和交替式GRPO方案,仅使用成对偏好数据进行强化学习训练。
答案说明
RUBRIC-ARROW是一种用于LLM后训练的奖励建模框架,通过交替训练评分标准生成器和评判器,在主观、非可验证领域中改进了奖励建模。该方法采用概率评分规则减少并列情况,仅使用成对偏好数据进行强化学习训练。
这篇帖子回答的问题
- RUBRIC-ARROW框架如何改进非可验证领域LLM后训练的奖励建模?
核心观点
- RUBRIC-ARROW通过交替训练评分标准生成器和基于标准的评判器,改进大语言模型后训练中的奖励建模。
FAQ
- Q: RUBRIC-ARROW针对什么问题?
- A: 针对主观、非可验证领域中绝对评分困难的问题。
关键实体
- RUBRIC-ARROW
- GRPO