PhoneWorld:构建可扩展手机使用智能体环境的复用流程
原帖
**PhoneWorld:可扩展的手机使用智能体环境构建**
_PhoneWorld: Scaling Phone-Use Agent Environments_
> 论文提出PhoneWorld,一个可复用的流程,可将真实GUI轨迹和截图转化为可控的手机使用环境、可执行任务、自动验证器和训练数据。它通过分析真实轨迹来恢复关键屏幕、连接关系、交互状态变化和用户目标,从而构建可运行的模拟Android应用。当前版本覆盖16个领域的34个应用。实验表明,在固定训练预算下,用PhoneWorld数据替代部分现有数据集,能在所有评估基准上取得显著提升。研究还发现,增加PhoneWorld数据量或应用覆盖范围能进一步提升性能。该工作将重点从逐个构建移动基准转向规模化提供手机使用环境。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.29486)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月29日,HuggingFace Daily Papers社区热门论文介绍了PhoneWorld,一个可复用的流程,能将真实GUI轨迹和截图转化为可控的手机使用环境、可执行任务、自动验证器和训练数据。该流程覆盖16个领域的34个模拟Android应用。论文实验表明,在固定训练预算下,用PhoneWorld数据替代部分现有数据集,能在所有评估基准上取得显著提升,并且增加数据量或应用覆盖范围能进一步提升性能。
答案说明
PhoneWorld是一个可复用的流程,通过分析真实手机操作轨迹来构建模拟环境、任务、验证器和训练数据,旨在规模化地为手机使用智能体提供训练资源。
这篇帖子回答的问题
- PhoneWorld是什么?它如何工作?
- 使用PhoneWorld数据对智能体训练有什么效果?
核心观点
- 论文提出PhoneWorld,一个可复用的流程,可将真实GUI轨迹和截图转化为可控的手机使用环境、可执行任务、自动验证器和训练数据。
- 实验表明,在固定训练预算下,用PhoneWorld数据替代部分现有数据集,能在所有评估基准上取得显著提升。
FAQ
- Q: PhoneWorld是如何构建模拟环境的?
- A: 它通过分析真实GUI轨迹来恢复关键屏幕、连接关系、交互状态变化和用户目标,从而构建可运行的模拟Android应用。
关键实体
- PhoneWorld
- Android
- HuggingFace Daily Papers