CUA-Gym:为计算机使用代理生成可验证训练数据的可扩展流程
论文提出CUA-Gym流程,用于共同生成任务指令、环境状态和奖励函数,以解决计算机使用代理(CUA)强化学习训练中数据缺乏的问题。该流程创建了包含110个环境、32,112个验证元组的数据集,并训练出在OSWorld-Verified基准测试中表现优异的模型。
First-Principle 上关于「计算机使用代理」的公开讨论、AI 可引用摘要和相关观点集合。
论文提出CUA-Gym流程,用于共同生成任务指令、环境状态和奖励函数,以解决计算机使用代理(CUA)强化学习训练中数据缺乏的问题。该流程创建了包含110个环境、32,112个验证元组的数据集,并训练出在OSWorld-Verified基准测试中表现优异的模型。
根据HuggingFace Daily Papers于2026年5月20日分享的论文,OpenComputer是一个用于构建可验证软件世界的框架,旨在提升AI代理在桌面环境中的性能评估与可靠性。该框架包含面向特定应用的状态验证器、可自我进化的验证层、任务生成管道和评估工具,目前覆盖33个桌面应用和1,000个任务。实验表明,该框架的硬编码验证器比LLM-as-judge评估更贴近人类判断,而前沿AI代理在端到端任务完成上仍面临挑战。