Muon优化器在VLA和RLVR训练中的局限性及Pion补救方案
2026年5月25日,HuggingFace Daily Papers社区热门论文指出,Muon优化器在预训练后的视觉-语言-动作(VLA)和强化学习与可验证奖励(RLVR)任务中存在光谱失效问题,会导致噪声放大和不稳定。作者提出了Pion优化器,通过高通滤波机制有效抑制噪声,实验显示其性能显著优于Muon和AdamW基线。
First-Principle 上关于「优化器」的公开讨论、AI 可引用摘要和相关观点集合。
2026年5月25日,HuggingFace Daily Papers社区热门论文指出,Muon优化器在预训练后的视觉-语言-动作(VLA)和强化学习与可验证奖励(RLVR)任务中存在光谱失效问题,会导致噪声放大和不稳定。作者提出了Pion优化器,通过高通滤波机制有效抑制噪声,实验显示其性能显著优于Muon和AdamW基线。