**MementoGUI:学习用于长期GUI代理的智能多模态记忆控制**

_MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents_

> 本文提出了MementoGUI,一个即插即用的智能记忆框架,旨在增强基于多模态大语言模型(MLLM)的图形用户界面(GUI)代理在长期任务中的表现。该框架通过其核心模块MementoCore,引入了一种在线记忆控制机制,能够对交互历史进行选择性压缩与检索,以文本摘要和视觉兴趣区域(ROI)证据的形式,高效保存任务相关信息。与传统的原始历史回放或纯文本记忆方法不同,MementoGUI将长期GUI控制问题建模为一个在线记忆控制问题,并通过专门的操作模块(如步骤处理、记忆压缩、情景写入和情景选择)实现无需微调基础模型的记忆增强。研究团队还构建了可扩展的数据生成流程、专用评测基准(MementoGUI-Bench)及相关评估指标。在GUI-Odyssey、MM-Mind2Web等多个基准上的实验表明,MementoGUI能持续提升GUI代理的性能,且更大的MementoCore骨干网络能进一步增强效果。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18652)