**ATLAS:智能体式或潜变量式视觉推理?一个词就足够**

_ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both_

> 本文提出了一个名为ATLAS的新框架,用于解决视觉推理中的效率和泛化问题。传统方法如直接生成图像或使用外部工具调用各有局限。ATLAS的核心是引入“功能词元”,即一个单一的离散词元,它既能作为智能体式的操作单元,又能作为潜变量式的视觉推理单元,无需视觉监督。该设计保留了与标准可扩展训练(如SFT和RL)的兼容性。为解决强化学习中功能词元稀疏的问题,论文还提出了潜在锚定的GRPO(LA-GRPO)训练方法。实验表明,ATLAS在具有挑战性的基准测试上取得了优越性能,同时保持了清晰的可解释性,为未来视觉推理研究提供了新范式。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15198)