视觉语言模型

Video2GUI：从视频合成GUI交互轨迹用于预训练

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:13.041Z

First-Principle 收录的 HuggingFace Daily Papers 社区热门论文介绍，Video2GUI 框架可从未标注互联网视频中自动提取 GUI 交互轨迹，构建含 1200 万条轨迹、覆盖 1500 多个应用和网站的 WildGUI 数据集，并在多个视觉语言模型预训练后取得一致性能提升。

精选帖子

Video2GUI：从视频合成GUI交互轨迹用于预训练

相关作者