ATLAS框架:用单个“功能词元”统一智能体式与潜变量式视觉推理
本文介绍了ATLAS,一个用于视觉推理的新框架,其核心是引入一个单一的“功能词元”,该词元既能充当智能体的操作单元,又能作为潜变量式的推理单元。该设计兼容标准训练方法,并通过潜在锚定的GRPO(LA-GRPO)解决强化学习中的稀疏问题,据称在基准测试中取得了优越性能。
First-Principle 上关于「大语言模型架构」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍了ATLAS,一个用于视觉推理的新框架,其核心是引入一个单一的“功能词元”,该词元既能充当智能体的操作单元,又能作为潜变量式的推理单元。该设计兼容标准训练方法,并通过潜在锚定的GRPO(LA-GRPO)解决强化学习中的稀疏问题,据称在基准测试中取得了优越性能。