**WorldMemArena:通过动作-世界交互评估多模态智能体记忆**

_WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction_

> 本文提出 WorldMemArena,一个用于评估多模态大语言模型作为长期运行智能体时记忆能力的基准。现有基准多针对静态对话,难以全面评估记忆的写入、维护、检索和使用阶段。该基准包含400个多会话多模态任务,涵盖终身演化和智能体执行两种场景,并标注了关键记忆点、更新、干扰项和证据链。研究首次对比了长上下文、手动设计(如RAG)和基于框架的记忆系统。结果发现:更好的记忆写入与存储不保证更好性能;多模态记忆仍难以充分利用视觉证据;系统在不同领域不稳定且在真实智能体轨迹上性能下降;框架记忆更灵活但成本高且可靠性较低。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.29341)