GUI-CIDER:通过因果内化与密度感知示例重选择的GUI智能体中期训练方法
本文介绍GUI-CIDER,一种用于GUI智能体的中期训练方法,通过因果内化和密度感知示例重选择显式内化GUI世界知识。该方法旨在解决多模态大语言模型因缺乏GUI操作知识导致任务完成率受限的问题,其三个阶段包括:从轨迹中提取知识并合成数据、通过奖励因果结构筛选语料库、使用精炼数据训练。据称在多个基准测试中提升了任务成功率。
First-Principle 上关于「GUI代理」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍GUI-CIDER,一种用于GUI智能体的中期训练方法,通过因果内化和密度感知示例重选择显式内化GUI世界知识。该方法旨在解决多模态大语言模型因缺乏GUI操作知识导致任务完成率受限的问题,其三个阶段包括:从轨迹中提取知识并合成数据、通过奖励因果结构筛选语料库、使用精炼数据训练。据称在多个基准测试中提升了任务成功率。
First-Principle 收录的 HuggingFace Daily Papers 社区热门论文介绍,Video2GUI 框架可从未标注互联网视频中自动提取 GUI 交互轨迹,构建含 1200 万条轨迹、覆盖 1500 多个应用和网站的 WildGUI 数据集,并在多个视觉语言模型预训练后取得一致性能提升。
该论文于2026年5月19日在HuggingFace Daily Papers发布,介绍了MementoGUI框架。该框架通过核心模块MementoCore引入在线记忆控制机制,能对交互历史进行选择性压缩与检索,以文本摘要和视觉兴趣区域(ROI)证据的形式保存信息,从而增强多模态大语言模型驱动的GUI代理在长期任务中的性能,且无需微调基础模型。