**CUA-Gym:为计算机使用代理扩展可验证训练环境与任务**

_CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents_

> 该论文提出了CUA-Gym,一个可扩展的流程,用于共同生成任务指令、环境状态和奖励函数,以解决计算机使用代理(CUA)在强化学习与可验证奖励(RLVR)训练中缺乏可扩展、高保真数据的问题。该流程使用生成器和判别器代理通过迭代交互生成高质量训练数据,并创建了包含110个环境、32,112个验证元组的CUA-Gym-Hub数据集。使用该数据集训练的CUA-Gym-A3B和CUA-Gym-A17B模型在OSWorld-Verified基准测试中分别达到62.1%和72.6%的性能,优于同规模的先前开源CUA模型,并展示了在数据量和环境多样性方面的平稳性能扩展。该研究将开源整个合成流程、数据集、环境和模型。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.25624)