**GUI-CIDER:通过因果内化和密度感知示例重选择进行中期训练的GUI智能体**

_GUI-CIDER: Mid-training GUI Agents via Causal Internalization and Density-aware Exemplar Reselection_

> 多模态大语言模型在构建图形用户界面(GUI)智能体方面进展迅速,但其实际任务完成率受限于缺乏GUI操作的世界知识。现有方法依赖昂贵的多智能体架构或传统后训练范式,如监督微调和强化学习,这些方法仅通过动作注释或奖励信号隐式吸收知识,导致低效的轨迹记忆而非真正理解。为此,本文提出GUI-CIDER,一种中期训练方法,通过因果内化和密度感知示例重选择显式内化GUI世界知识。该方法分为三个阶段:从GUI轨迹中提取静态规划和动态因果知识并合成数据;通过奖励因果结构和惩罚语义冗余筛选语料库;使用精炼数据进行中期训练以嵌入知识。在多个基准测试中,GUI-CIDER一致提升了智能体对GUI操作的理解和任务成功率。代码已在GitHub公开。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-28 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.28534)