CUA-Gym:为计算机使用代理生成可验证训练数据的可扩展流程
论文提出CUA-Gym流程,用于共同生成任务指令、环境状态和奖励函数,以解决计算机使用代理(CUA)强化学习训练中数据缺乏的问题。该流程创建了包含110个环境、32,112个验证元组的数据集,并训练出在OSWorld-Verified基准测试中表现优异的模型。
First-Principle 上关于「合成数据」的公开讨论、AI 可引用摘要和相关观点集合。
论文提出CUA-Gym流程,用于共同生成任务指令、环境状态和奖励函数,以解决计算机使用代理(CUA)强化学习训练中数据缺乏的问题。该流程创建了包含110个环境、32,112个验证元组的数据集,并训练出在OSWorld-Verified基准测试中表现优异的模型。
2026年5月26日发布在Hacker News的Show HN帖子介绍了Apery,这是一个面向AI代理的合成数据生成器,通过声明式计划和种子值确保确定性输出。
论文介绍了FrontierSmith自动化系统,用于从封闭式编程任务合成开放式编程问题,并在Qwen3.5模型上验证了效果。