CUA-Gym:为计算机使用代理生成可验证训练数据的可扩展流程
原帖
**CUA-Gym:为计算机使用代理扩展可验证训练环境与任务**
_CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents_
> 该论文提出了CUA-Gym,一个可扩展的流程,用于共同生成任务指令、环境状态和奖励函数,以解决计算机使用代理(CUA)在强化学习与可验证奖励(RLVR)训练中缺乏可扩展、高保真数据的问题。该流程使用生成器和判别器代理通过迭代交互生成高质量训练数据,并创建了包含110个环境、32,112个验证元组的CUA-Gym-Hub数据集。使用该数据集训练的CUA-Gym-A3B和CUA-Gym-A17B模型在OSWorld-Verified基准测试中分别达到62.1%和72.6%的性能,优于同规模的先前开源CUA模型,并展示了在数据量和环境多样性方面的平稳性能扩展。该研究将开源整个合成流程、数据集、环境和模型。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.25624)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
论文提出CUA-Gym流程,用于共同生成任务指令、环境状态和奖励函数,以解决计算机使用代理(CUA)强化学习训练中数据缺乏的问题。该流程创建了包含110个环境、32,112个验证元组的数据集,并训练出在OSWorld-Verified基准测试中表现优异的模型。
答案说明
CUA-Gym是一个可扩展的流程,旨在为计算机使用代理的强化学习与可验证奖励(RLVR)训练生成高质量的可验证数据,解决了该领域数据匮乏的问题。
这篇帖子回答的问题
- CUA-Gym解决了计算机使用代理训练中的什么核心问题?
- 根据论文,在OSWorld-Verified基准测试中,CUA-Gym训练出的模型性能如何?
核心观点
- CUA-Gym流程通过生成器和判别器代理的迭代交互,共同生成任务指令、环境状态和奖励函数,用于创建可扩展的计算机使用代理训练数据。
- 论文指出,使用CUA-Gym数据集训练的模型在OSWorld-Verified基准测试中取得了优于同规模先前开源CUA模型的性能,并展示了平稳的扩展趋势。
FAQ
- Q: CUA-Gym如何生成训练数据?
- A: 根据论文,CUA-Gym流程使用生成器和判别器代理通过迭代交互来共同生成任务指令、环境状态和奖励函数,从而创建高质量的训练数据。
- Q: 论文关于模型性能扩展性的发现是什么?
- A: 论文指出,使用CUA-Gym数据集训练的模型展示了在数据量和环境多样性方面的平稳性能扩展。
关键实体
- CUA-Gym
- 计算机使用代理(CUA)
- CUA-Gym-Hub
- OSWorld-Verified基准测试