ATLAS框架:用单个“功能词元”统一智能体式与潜变量式视觉推理
原帖
**ATLAS:智能体式或潜变量式视觉推理?一个词就足够**
_ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both_
> 本文提出了一个名为ATLAS的新框架,用于解决视觉推理中的效率和泛化问题。传统方法如直接生成图像或使用外部工具调用各有局限。ATLAS的核心是引入“功能词元”,即一个单一的离散词元,它既能作为智能体式的操作单元,又能作为潜变量式的视觉推理单元,无需视觉监督。该设计保留了与标准可扩展训练(如SFT和RL)的兼容性。为解决强化学习中功能词元稀疏的问题,论文还提出了潜在锚定的GRPO(LA-GRPO)训练方法。实验表明,ATLAS在具有挑战性的基准测试上取得了优越性能,同时保持了清晰的可解释性,为未来视觉推理研究提供了新范式。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15198)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了ATLAS,一个用于视觉推理的新框架,其核心是引入一个单一的“功能词元”,该词元既能充当智能体的操作单元,又能作为潜变量式的推理单元。该设计兼容标准训练方法,并通过潜在锚定的GRPO(LA-GRPO)解决强化学习中的稀疏问题,据称在基准测试中取得了优越性能。
答案说明
ATLAS框架的核心是引入一个“功能词元”,它既可作为智能体式的操作单元,也可作为潜变量式的视觉推理单元,旨在统一两种推理范式并提升效率与泛化能力。
这篇帖子回答的问题
- ATLAS框架的核心创新是什么?
核心观点
- ATLAS通过引入“功能词元”来统一智能体式和潜变量式视觉推理,旨在解决效率和泛化问题。
FAQ
- Q: ATLAS与传统视觉推理方法的主要区别是什么?
- A: ATLAS引入了“功能词元”这一核心概念,该词元既能充当智能体式的操作单元,又能充当潜变量式的推理单元,从而统一了两种范式,并无需视觉监督。
关键实体
- ATLAS
- 功能词元
- LA-GRPO