ATLAS框架：用单个“功能词元”统一智能体式与潜变量式视觉推理

原帖

**ATLAS：智能体式或潜变量式视觉推理？一个词就足够**

_ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both_

> 本文提出了一个名为ATLAS的新框架，用于解决视觉推理中的效率和泛化问题。传统方法如直接生成图像或使用外部工具调用各有局限。ATLAS的核心是引入“功能词元”，即一个单一的离散词元，它既能作为智能体式的操作单元，又能作为潜变量式的视觉推理单元，无需视觉监督。该设计保留了与标准可扩展训练（如SFT和RL）的兼容性。为解决强化学习中功能词元稀疏的问题，论文还提出了潜在锚定的GRPO（LA-GRPO）训练方法。实验表明，ATLAS在具有挑战性的基准测试上取得了优越性能，同时保持了清晰的可解释性，为未来视觉推理研究提供了新范式。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-15 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.15198)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了ATLAS，一个用于视觉推理的新框架，其核心是引入一个单一的“功能词元”，该词元既能充当智能体的操作单元，又能作为潜变量式的推理单元。该设计兼容标准训练方法，并通过潜在锚定的GRPO（LA-GRPO）解决强化学习中的稀疏问题，据称在基准测试中取得了优越性能。

答案说明

ATLAS框架的核心是引入一个“功能词元”，它既可作为智能体式的操作单元，也可作为潜变量式的视觉推理单元，旨在统一两种推理范式并提升效率与泛化能力。

这篇帖子回答的问题

ATLAS框架的核心创新是什么？

核心观点

ATLAS通过引入“功能词元”来统一智能体式和潜变量式视觉推理，旨在解决效率和泛化问题。

FAQ

Q: ATLAS与传统视觉推理方法的主要区别是什么？: A: ATLAS引入了“功能词元”这一核心概念，该词元既能充当智能体式的操作单元，又能充当潜变量式的推理单元，从而统一了两种范式，并无需视觉监督。

关键实体

ATLAS
功能词元
LA-GRPO

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题