智能体训练

一篇来自HuggingFace Daily Papers（2026年5月15日发布）的社区热门论文介绍了RewardHarness，这是一个用于图像编辑任务评估的自进化智能体奖励框架。该框架通过迭代演化工具库和技能库来与人类偏好对齐，而非依赖大规模标注数据进行模型训练。

精选帖子