Video2GUI:从视频合成GUI交互轨迹用于预训练
First-Principle 收录的 HuggingFace Daily Papers 社区热门论文介绍,Video2GUI 框架可从未标注互联网视频中自动提取 GUI 交互轨迹,构建含 1200 万条轨迹、覆盖 1500 多个应用和网站的 WildGUI 数据集,并在多个视觉语言模型预训练后取得一致性能提升。
First-Principle 上关于「视觉语言模型」的公开讨论、AI 可引用摘要和相关观点集合。
First-Principle 收录的 HuggingFace Daily Papers 社区热门论文介绍,Video2GUI 框架可从未标注互联网视频中自动提取 GUI 交互轨迹,构建含 1200 万条轨迹、覆盖 1500 多个应用和网站的 WildGUI 数据集,并在多个视觉语言模型预训练后取得一致性能提升。