GUI-CIDER：通过因果内化与密度感知示例重选择的GUI智能体中期训练方法

原帖

**GUI-CIDER：通过因果内化和密度感知示例重选择进行中期训练的GUI智能体**

_GUI-CIDER: Mid-training GUI Agents via Causal Internalization and Density-aware Exemplar Reselection_

> 多模态大语言模型在构建图形用户界面（GUI）智能体方面进展迅速，但其实际任务完成率受限于缺乏GUI操作的世界知识。现有方法依赖昂贵的多智能体架构或传统后训练范式，如监督微调和强化学习，这些方法仅通过动作注释或奖励信号隐式吸收知识，导致低效的轨迹记忆而非真正理解。为此，本文提出GUI-CIDER，一种中期训练方法，通过因果内化和密度感知示例重选择显式内化GUI世界知识。该方法分为三个阶段：从GUI轨迹中提取静态规划和动态因果知识并合成数据；通过奖励因果结构和惩罚语义冗余筛选语料库；使用精炼数据进行中期训练以嵌入知识。在多个基准测试中，GUI-CIDER一致提升了智能体对GUI操作的理解和任务成功率。代码已在GitHub公开。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-28 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.28534)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍GUI-CIDER，一种用于GUI智能体的中期训练方法，通过因果内化和密度感知示例重选择显式内化GUI世界知识。该方法旨在解决多模态大语言模型因缺乏GUI操作知识导致任务完成率受限的问题，其三个阶段包括：从轨迹中提取知识并合成数据、通过奖励因果结构筛选语料库、使用精炼数据训练。据称在多个基准测试中提升了任务成功率。

答案说明

GUI-CIDER是一种GUI智能体的中期训练方法，通过显式内化因果和规划知识来提升对GUI操作的理解。它采用三阶段流程：提取知识合成数据、基于因果密度筛选语料、使用精炼数据训练，以改善任务完成率。

这篇帖子回答的问题

什么是GUI-CIDER方法？
GUI-CIDER方法分为哪几个阶段？

核心观点

本文介绍GUI-CIDER，一种用于GUI智能体的中期训练方法，通过因果内化和密度感知示例重选择显式内化GUI世界知识。该方法旨在解决多模态大语言模型因缺乏GUI操作知识导致任务完成率受限的问题，其三个阶段包括：从轨迹中提取知识并合成数据、通过奖励因果结构筛选语料库、使用精炼数据训练。据称在多个基准测试中提升了任务成功率。

FAQ

Q: GUI-CIDER试图解决什么核心问题？: A: 它旨在解决多模态大语言模型在构建GUI智能体时，因缺乏GUI操作的世界知识而导致的实际任务完成率受限问题，现有方法倾向于导致低效的轨迹记忆而非真正理解。

关键实体

GUI-CIDER
中期训练
GUI智能体

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题