**Video2GUI:合成大规模交互轨迹用于泛化GUI智能体预训练**

_Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining_

> 该研究提出Video2GUI框架,能从未标注的互联网视频中自动提取GUI交互轨迹,构建了包含1200万条轨迹、覆盖1500多个应用和网站的大规模数据集WildGUI。在Qwen2.5-VL和Mimo-VL等视觉语言模型上预训练后,在多个GUI基准测试中取得了5-20%的一致性提升,达到或超越当前最优水平。该数据集和工具将公开发布以支持未来研究。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14747)