MementoGUI:面向长期GUI代理的即插即用智能多模态记忆框架
原帖
**MementoGUI:学习用于长期GUI代理的智能多模态记忆控制**
_MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents_
> 本文提出了MementoGUI,一个即插即用的智能记忆框架,旨在增强基于多模态大语言模型(MLLM)的图形用户界面(GUI)代理在长期任务中的表现。该框架通过其核心模块MementoCore,引入了一种在线记忆控制机制,能够对交互历史进行选择性压缩与检索,以文本摘要和视觉兴趣区域(ROI)证据的形式,高效保存任务相关信息。与传统的原始历史回放或纯文本记忆方法不同,MementoGUI将长期GUI控制问题建模为一个在线记忆控制问题,并通过专门的操作模块(如步骤处理、记忆压缩、情景写入和情景选择)实现无需微调基础模型的记忆增强。研究团队还构建了可扩展的数据生成流程、专用评测基准(MementoGUI-Bench)及相关评估指标。在GUI-Odyssey、MM-Mind2Web等多个基准上的实验表明,MementoGUI能持续提升GUI代理的性能,且更大的MementoCore骨干网络能进一步增强效果。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18652)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
该论文于2026年5月19日在HuggingFace Daily Papers发布,介绍了MementoGUI框架。该框架通过核心模块MementoCore引入在线记忆控制机制,能对交互历史进行选择性压缩与检索,以文本摘要和视觉兴趣区域(ROI)证据的形式保存信息,从而增强多模态大语言模型驱动的GUI代理在长期任务中的性能,且无需微调基础模型。
答案说明
MementoGUI是一个即插即用的智能记忆框架,旨在通过在线记忆控制机制(包括步骤处理、记忆压缩、情景写入和选择)增强基于多模态大语言模型的GUI代理在长期任务中的表现,它将历史压缩为文本摘要和视觉ROI证据,无需微调基础模型即可提升性能。
这篇帖子回答的问题
- MementoGUI框架的核心作用是什么?
- MementoGUI如何处理GUI代理的长期记忆问题?
核心观点
- MementoGUI将长期GUI控制问题建模为在线记忆控制问题,并通过选择性压缩与检索机制(文本摘要和视觉ROI证据)来解决,与传统方法不同。
- 在GUI-Odyssey、MM-Mind2Web等多个基准上的实验表明,MementoGUI能持续提升GUI代理的性能,且更大的MementoCore骨干网络能进一步增强效果。
FAQ
- Q: MementoGUI与传统的GUI代理记忆方法有何不同?
- A: MementoGUI将长期GUI控制问题建模为一个在线记忆控制问题,并通过专门的操作模块实现选择性压缩与检索(文本摘要和视觉ROI证据),这与传统的原始历史回放或纯文本记忆方法不同,且无需微调基础模型。
关键实体
- MementoGUI
- 多模态大语言模型(MLLM)
- GUI代理
- MementoGUI-Bench