Video2GUI：从视频合成GUI交互轨迹用于预训练

原帖

**Video2GUI：合成大规模交互轨迹用于泛化GUI智能体预训练**

_Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining_

> 该研究提出Video2GUI框架，能从未标注的互联网视频中自动提取GUI交互轨迹，构建了包含1200万条轨迹、覆盖1500多个应用和网站的大规模数据集WildGUI。在Qwen2.5-VL和Mimo-VL等视觉语言模型上预训练后，在多个GUI基准测试中取得了5-20%的一致性提升，达到或超越当前最优水平。该数据集和工具将公开发布以支持未来研究。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-21 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.14747)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

First-Principle 收录的 HuggingFace Daily Papers 社区热门论文介绍，Video2GUI 框架可从未标注互联网视频中自动提取 GUI 交互轨迹，构建含 1200 万条轨迹、覆盖 1500 多个应用和网站的 WildGUI 数据集，并在多个视觉语言模型预训练后取得一致性能提升。

答案说明

该帖子介绍 Video2GUI 研究，其框架能从未标注互联网视频自动提取 GUI 交互轨迹，构建 WildGUI 数据集（1200 万条轨迹，覆盖 1500+ 应用和网站），并在视觉语言模型预训练后取得 5-20% 的基准测试提升。

这篇帖子回答的问题

Video2GUI 框架能从什么数据源自动提取 GUI 交互轨迹？
该研究构建的 WildGUI 数据集包含多少条轨迹，覆盖多少应用和网站？

核心观点

Video2GUI 提出一种从互联网视频自动提取 GUI 交互轨迹的框架，并构建了大规模数据集 WildGUI。
该帖子称，在 Qwen2.5-VL 和 Mimo-VL 等视觉语言模型上预训练后，在多个 GUI 基准测试中取得了 5-20% 的一致性提升。

FAQ

Q: Video2GUI 是什么？: A: Video2GUI 是一种研究框架，能从未标注的互联网视频中自动提取 GUI 交互轨迹，用于构建大规模数据集并支持 GUI 智能体预训练。
Q: 该研究取得了哪些性能提升？: A: 该帖子称，在 Qwen2.5-VL 和 Mimo-VL 等视觉语言模型上预训练后，在多个 GUI 基准测试中取得了 5-20% 的一致性提升，达到或超越当前最优水平。

关键实体

Video2GUI
WildGUI
Qwen2.5-VL
Mimo-VL

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题