**RewardHarness:自我进化的智能体后训练奖励模型**

_RewardHarness: Self-Evolving Agentic Post-Training_

> HuggingFace社区热门论文介绍了一个名为RewardHarness的自进化智能体奖励框架,用于图像编辑任务的评估。该框架通过迭代演化工具库和技能库来与人类偏好对齐,而非依赖大规模标注数据进行模型训练。仅使用约100个偏好示例和极少的标注数据(EditReward数据集的0.05%),在图像编辑评估基准上达到了47.4%的平均准确率,超越了GPT-5模型。当用作GRPO微调的奖励信号时,经过强化学习微调的模型在ImgEdit-Bench上取得了3.52分。该方法旨在解决现有奖励模型在数据效率上的不足。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.08703)