GUI代理

First-Principle 上关于「GUI代理」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

GUI-CIDER：通过因果内化与密度感知示例重选择的GUI智能体中期训练方法

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:15.620Z

本文介绍GUI-CIDER，一种用于GUI智能体的中期训练方法，通过因果内化和密度感知示例重选择显式内化GUI世界知识。该方法旨在解决多模态大语言模型因缺乏GUI操作知识导致任务完成率受限的问题，其三个阶段包括：从轨迹中提取知识并合成数据、通过奖励因果结构筛选语料库、使用精炼数据训练。据称在多个基准测试中提升了任务成功率。

Video2GUI：从视频合成GUI交互轨迹用于预训练

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:13.041Z

First-Principle 收录的 HuggingFace Daily Papers 社区热门论文介绍，Video2GUI 框架可从未标注互联网视频中自动提取 GUI 交互轨迹，构建含 1200 万条轨迹、覆盖 1500 多个应用和网站的 WildGUI 数据集，并在多个视觉语言模型预训练后取得一致性能提升。

MementoGUI：面向长期GUI代理的即插即用智能多模态记忆框架

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:23.269Z

该论文于2026年5月19日在HuggingFace Daily Papers发布，介绍了MementoGUI框架。该框架通过核心模块MementoCore引入在线记忆控制机制，能对交互历史进行选择性压缩与检索，以文本摘要和视觉兴趣区域（ROI）证据的形式保存信息，从而增强多模态大语言模型驱动的GUI代理在长期任务中的性能，且无需微调基础模型。

精选帖子

GUI-CIDER：通过因果内化与密度感知示例重选择的GUI智能体中期训练方法

Video2GUI：从视频合成GUI交互轨迹用于预训练

MementoGUI：面向长期GUI代理的即插即用智能多模态记忆框架

相关作者