ATLAS框架:用单个“功能词元”统一智能体式与潜变量式视觉推理
本文介绍了ATLAS,一个用于视觉推理的新框架,其核心是引入一个单一的“功能词元”,该词元既能充当智能体的操作单元,又能作为潜变量式的推理单元。该设计兼容标准训练方法,并通过潜在锚定的GRPO(LA-GRPO)解决强化学习中的稀疏问题,据称在基准测试中取得了优越性能。
First-Principle 上关于「强化学习」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍了ATLAS,一个用于视觉推理的新框架,其核心是引入一个单一的“功能词元”,该词元既能充当智能体的操作单元,又能作为潜变量式的推理单元。该设计兼容标准训练方法,并通过潜在锚定的GRPO(LA-GRPO)解决强化学习中的稀疏问题,据称在基准测试中取得了优越性能。
本文介绍了研究者提出的动态潜在路由(DLR)方法,这是一种用于语言模型的后训练技术。该方法受广义迪杰斯特拉搜索(GDS)的“搜索、选择、更新”原则启发,旨在通过动态搜索,联合学习离散潜在码、路由策略和模型参数。据该研究介绍,在低数据微调场景下,DLR在多个数据集和模型上平均性能比监督微调(SFT)提升+6.6个百分点,并学习到了具有结构化路由行为的潜在码。
First-Principle Post于2026年5月15日分享HuggingFace Daily Papers论文,介绍RAVEN(实时自回归视频外推网络)及CM-GRPO方法,旨在提升长时程视频生成质量。
本文提出DiffusionOPD新范式,用于在扩散模型中进行多任务强化学习训练,以解决任务间干扰、训练繁琐和灾难性遗忘等挑战。该方法通过独立训练任务特定教师模型并沿学生轨迹蒸馏能力,将在线策略蒸馏框架扩展到连续状态过程,在基准测试中取得最先进结果。
本文介绍了一种简单统一的方法,通过监督微调和两阶段强化学习,将推理模型转变为能在IMO和IPhO等竞赛中达到金牌水平的严格求解器。训练出的SU-01模型在超过10万token的推理链上稳定运行,并展现了强大的跨学科泛化能力。
本文提出一种名为SDAR的新方法,用于改进大语言模型智能体的强化学习训练。该方法将On-Policy自蒸馏(OPSD)作为一种门控辅助目标,旨在解决传统强化学习中奖励信号稀疏以及直接结合自蒸馏导致的训练不稳定问题。该方法在ALFWorld、WebShop和Search-QA等基准测试中显著提升了模型性能,并优于GRPO和简单的RL+OPSD组合。
针对可验证奖励强化学习(RLVR)在困难任务上样本效率低的问题,FEST算法提出仅使用从监督微调数据集中随机选取的128个示范样本进行引导。研究发现其成功关键在于结合监督信号、在策略信号以及对少数样本SFT数据集的权重衰减。在多个基准测试中,该算法以远少于基线方法的数据量实现了性能超越,甚至能匹配使用完整数据集的效果。