WorldMemArena：评估多模态智能体记忆能力的基准

原帖

**WorldMemArena：通过动作-世界交互评估多模态智能体记忆**

_WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction_

> 本文提出 WorldMemArena，一个用于评估多模态大语言模型作为长期运行智能体时记忆能力的基准。现有基准多针对静态对话，难以全面评估记忆的写入、维护、检索和使用阶段。该基准包含400个多会话多模态任务，涵盖终身演化和智能体执行两种场景，并标注了关键记忆点、更新、干扰项和证据链。研究首次对比了长上下文、手动设计（如RAG）和基于框架的记忆系统。结果发现：更好的记忆写入与存储不保证更好性能；多模态记忆仍难以充分利用视觉证据；系统在不同领域不稳定且在真实智能体轨迹上性能下降；框架记忆更灵活但成本高且可靠性较低。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-29 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.29341)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月，HuggingFace Daily Papers分享了一篇关于多模态智能体记忆评估的论文。该研究提出了WorldMemArena基准，包含400个多会话任务，首次对比了长上下文、RAG和基于框架的记忆系统，并发现存储优化不直接提升性能、多模态证据利用不足等挑战。

答案说明

WorldMemArena是一个用于评估多模态大语言模型作为长期运行智能体时记忆能力的基准，包含400个多会话多模态任务，并首次对比了长上下文、手动设计（如RAG）和基于框架的记忆系统。

这篇帖子回答的问题

WorldMemArena是什么，它解决了什么问题？
该研究对比了哪几种记忆系统，得出了哪些主要发现？

核心观点

记忆的写入与存储优化不直接等同于智能体任务性能的提升。
基于框架的记忆系统（如RAG）虽然更灵活，但成本更高且可靠性较低。

FAQ

Q: WorldMemArena基准包含多少任务？: A: 该基准包含400个多会话多模态任务。
Q: 研究发现了记忆系统存在哪些主要挑战？: A: 主要挑战包括：更好的记忆写入与存储不保证更好性能；多模态记忆难以充分利用视觉证据；系统在不同领域不稳定且在真实智能体轨迹上性能下降；框架记忆更灵活但成本高且可靠性较低。

关键实体

WorldMemArena
HuggingFace Daily Papers
RAG