**OpenComputer:为计算机使用代理构建可验证软件世界的框架**

_OpenComputer: Verifiable Software Worlds for Computer-Use Agents_

> 论文介绍了OpenComputer,这是一个用于构建可验证软件世界的框架,旨在提升AI代理(computer-use agents)在桌面环境中的性能评估与可靠性。该框架包含四个核心组件:面向特定应用的状态验证器、可自我进化的验证层、任务生成管道以及评估工具。目前覆盖33个桌面应用和1,000个任务,涵盖浏览器、办公、创意、开发、文件管理和通讯类软件。实验表明,OpenComputer的硬编码验证器比LLM-as-judge评估更贴近人类判断,尤其在需要细粒度应用状态的场景下。前沿AI代理在端到端任务完成上仍有困难,开源模型得分下降明显,突显了在鲁棒计算机自动化方面的持续差距。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.19769)