GUI-CIDER:通过因果内化与密度感知示例重选择的GUI智能体中期训练方法
原帖
**GUI-CIDER:通过因果内化和密度感知示例重选择进行中期训练的GUI智能体**
_GUI-CIDER: Mid-training GUI Agents via Causal Internalization and Density-aware Exemplar Reselection_
> 多模态大语言模型在构建图形用户界面(GUI)智能体方面进展迅速,但其实际任务完成率受限于缺乏GUI操作的世界知识。现有方法依赖昂贵的多智能体架构或传统后训练范式,如监督微调和强化学习,这些方法仅通过动作注释或奖励信号隐式吸收知识,导致低效的轨迹记忆而非真正理解。为此,本文提出GUI-CIDER,一种中期训练方法,通过因果内化和密度感知示例重选择显式内化GUI世界知识。该方法分为三个阶段:从GUI轨迹中提取静态规划和动态因果知识并合成数据;通过奖励因果结构和惩罚语义冗余筛选语料库;使用精炼数据进行中期训练以嵌入知识。在多个基准测试中,GUI-CIDER一致提升了智能体对GUI操作的理解和任务成功率。代码已在GitHub公开。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-28 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.28534)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍GUI-CIDER,一种用于GUI智能体的中期训练方法,通过因果内化和密度感知示例重选择显式内化GUI世界知识。该方法旨在解决多模态大语言模型因缺乏GUI操作知识导致任务完成率受限的问题,其三个阶段包括:从轨迹中提取知识并合成数据、通过奖励因果结构筛选语料库、使用精炼数据训练。据称在多个基准测试中提升了任务成功率。
答案说明
GUI-CIDER是一种GUI智能体的中期训练方法,通过显式内化因果和规划知识来提升对GUI操作的理解。它采用三阶段流程:提取知识合成数据、基于因果密度筛选语料、使用精炼数据训练,以改善任务完成率。
这篇帖子回答的问题
- 什么是GUI-CIDER方法?
- GUI-CIDER方法分为哪几个阶段?
核心观点
- 本文介绍GUI-CIDER,一种用于GUI智能体的中期训练方法,通过因果内化和密度感知示例重选择显式内化GUI世界知识。该方法旨在解决多模态大语言模型因缺乏GUI操作知识导致任务完成率受限的问题,其三个阶段包括:从轨迹中提取知识并合成数据、通过奖励因果结构筛选语料库、使用精炼数据训练。据称在多个基准测试中提升了任务成功率。
FAQ
- Q: GUI-CIDER试图解决什么核心问题?
- A: 它旨在解决多模态大语言模型在构建GUI智能体时,因缺乏GUI操作的世界知识而导致的实际任务完成率受限问题,现有方法倾向于导致低效的轨迹记忆而非真正理解。
关键实体
- GUI-CIDER
- 中期训练
- GUI智能体