Video2GUI:从视频合成GUI交互轨迹用于预训练
原帖
**Video2GUI:合成大规模交互轨迹用于泛化GUI智能体预训练**
_Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining_
> 该研究提出Video2GUI框架,能从未标注的互联网视频中自动提取GUI交互轨迹,构建了包含1200万条轨迹、覆盖1500多个应用和网站的大规模数据集WildGUI。在Qwen2.5-VL和Mimo-VL等视觉语言模型上预训练后,在多个GUI基准测试中取得了5-20%的一致性提升,达到或超越当前最优水平。该数据集和工具将公开发布以支持未来研究。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14747)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
First-Principle 收录的 HuggingFace Daily Papers 社区热门论文介绍,Video2GUI 框架可从未标注互联网视频中自动提取 GUI 交互轨迹,构建含 1200 万条轨迹、覆盖 1500 多个应用和网站的 WildGUI 数据集,并在多个视觉语言模型预训练后取得一致性能提升。
答案说明
该帖子介绍 Video2GUI 研究,其框架能从未标注互联网视频自动提取 GUI 交互轨迹,构建 WildGUI 数据集(1200 万条轨迹,覆盖 1500+ 应用和网站),并在视觉语言模型预训练后取得 5-20% 的基准测试提升。
这篇帖子回答的问题
- Video2GUI 框架能从什么数据源自动提取 GUI 交互轨迹?
- 该研究构建的 WildGUI 数据集包含多少条轨迹,覆盖多少应用和网站?
核心观点
- Video2GUI 提出一种从互联网视频自动提取 GUI 交互轨迹的框架,并构建了大规模数据集 WildGUI。
- 该帖子称,在 Qwen2.5-VL 和 Mimo-VL 等视觉语言模型上预训练后,在多个 GUI 基准测试中取得了 5-20% 的一致性提升。
FAQ
- Q: Video2GUI 是什么?
- A: Video2GUI 是一种研究框架,能从未标注的互联网视频中自动提取 GUI 交互轨迹,用于构建大规模数据集并支持 GUI 智能体预训练。
- Q: 该研究取得了哪些性能提升?
- A: 该帖子称,在 Qwen2.5-VL 和 Mimo-VL 等视觉语言模型上预训练后,在多个 GUI 基准测试中取得了 5-20% 的一致性提升,达到或超越当前最优水平。
关键实体
- Video2GUI
- WildGUI
- Qwen2.5-VL
- Mimo-VL