**AtlasVA:面向教师无关视觉语言模型智能体的自演化视觉技能记忆框架**

_AtlasVA: Self-Evolving Visual Skill Memory for Teacher-Free VLM Agents_

> 该论文提出了一种名为AtlasVA的框架,旨在解决当前视觉语言模型智能体在记忆存储与优化中过度依赖文本和外部教师模型的问题。框架将记忆组织为三个互补层:空间热力图、视觉范例和符号文本技能,并能直接从轨迹统计数据和轻量级网格启发式方法中演化出危险度和亲和度图谱,将其作为强化学习中的势函数塑形奖励,从而无需外部大语言模型监督。在多个基准测试中,AtlasVA在空间密集型任务上显著优于以文本为中心的记忆基线和其他竞争性视觉语言模型智能体。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.17933)