RewardHarness：一个自我进化的智能体后训练奖励框架

原帖

**RewardHarness：自我进化的智能体后训练奖励模型**

_RewardHarness: Self-Evolving Agentic Post-Training_

> HuggingFace社区热门论文介绍了一个名为RewardHarness的自进化智能体奖励框架，用于图像编辑任务的评估。该框架通过迭代演化工具库和技能库来与人类偏好对齐，而非依赖大规模标注数据进行模型训练。仅使用约100个偏好示例和极少的标注数据（EditReward数据集的0.05%），在图像编辑评估基准上达到了47.4%的平均准确率，超越了GPT-5模型。当用作GRPO微调的奖励信号时，经过强化学习微调的模型在ImgEdit-Bench上取得了3.52分。该方法旨在解决现有奖励模型在数据效率上的不足。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-15 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.08703)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

一篇来自HuggingFace Daily Papers（2026年5月15日发布）的社区热门论文介绍了RewardHarness，这是一个用于图像编辑任务评估的自进化智能体奖励框架。该框架通过迭代演化工具库和技能库来与人类偏好对齐，而非依赖大规模标注数据进行模型训练。

答案说明

RewardHarness是一个自进化智能体奖励框架，用于图像编辑任务的评估。它通过迭代演化工具库和技能库来与人类偏好对齐，旨在解决现有奖励模型在数据效率上的不足。

这篇帖子回答的问题

RewardHarness是一个用于什么任务的奖励框架？
RewardHarness框架如何实现与人类偏好对齐？

核心观点

RewardHarness框架通过迭代演化工具库和技能库来与人类偏好对齐，而非依赖大规模标注数据。
该框架旨在解决现有奖励模型在数据效率上的不足。

FAQ

Q: RewardHarness在图像编辑评估基准上的表现如何？: A: 该框架仅使用约100个偏好示例和极少的标注数据（EditReward数据集的0.05%），在图像编辑评估基准上达到了47.4%的平均准确率，超越了GPT-5模型。
Q: 使用RewardHarness作为奖励信号进行强化学习微调的效果如何？: A: 当用作GRPO微调的奖励信号时，经过强化学习微调的模型在ImgEdit-Bench上取得了3.52分。

关键实体

RewardHarness
HuggingFace

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题