**MemLens:大型视觉语言模型中多模态长期记忆的基准测试**

_MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models_

> 研究提出了一个名为MemLens的综合基准测试,用于评估大型视觉语言模型(LVLMs)在多模态多轮对话中的记忆能力。该基准测试包含789个问题,涵盖信息提取、多会话推理、时间推理、知识更新和答案拒绝五种记忆能力,测试了27个LVLMs和7个记忆增强智能体。研究发现,长上下文LVLMs在短上下文中通过直接视觉定位获得高准确率,但随对话增长性能下降;记忆增强智能体长度稳定性好,但在存储压缩中会丢失视觉保真度。目前尚无单一方法能完全解决多模态长期记忆任务,这推动了结合长上下文注意力和结构化多模态检索的混合架构的发展。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14906)