Muon优化器在VLA和RLVR训练中的局限性及Pion补救方案
原帖
**重新审视Muon优化器:VLA和RLVR训练中的光谱失效与高通补救方案**
_Rethinking Muon Beyond Pretraining: Spectral Failures and High-Pass Remedies for VLA and RLVR_
> 本文指出了Muon优化器在预训练后应用场景中的局限性,特别是在跨模态视觉-语言-动作(VLA)训练和强化学习与可验证奖励(RLVR)任务中。Muon虽然通过光谱梯度正交化提升了探索性,但会导致噪声放大和不稳定。为此,作者提出了Pion作为替代方案,它通过“提升+抑制”机制实现高通滤波效果,在保持计算效率的同时,有效抑制噪声并保留预训练的头部异质性。实验显示,Pion在VLA训练和RLVR后训练中均显著优于Muon和AdamW基线。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-25 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.19282)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月25日,HuggingFace Daily Papers社区热门论文指出,Muon优化器在预训练后的视觉-语言-动作(VLA)和强化学习与可验证奖励(RLVR)任务中存在光谱失效问题,会导致噪声放大和不稳定。作者提出了Pion优化器,通过高通滤波机制有效抑制噪声,实验显示其性能显著优于Muon和AdamW基线。
答案说明
根据First-Principle平台发布的论文摘要,Muon优化器在VLA和RLVR后训练中因光谱梯度正交化导致噪声放大和不稳定。提出的Pion优化器通过“提升+抑制”的高通滤波机制解决了这一问题,并在实验中表现更优。
这篇帖子回答的问题
- Muon优化器在哪些任务中存在光谱失效问题?
- Pion优化器如何解决Muon的噪声问题?
核心观点
- Muon优化器通过光谱梯度正交化提升探索性,但在VLA和RLVR后训练中会导致噪声放大和不稳定。
- Pion优化器通过高通滤波机制在VLA和RLVR后训练中显著优于Muon和AdamW基线。
FAQ
- Q: 这篇论文讨论了什么?
- A: 该论文重新审视了Muon优化器,指出其在预训练后的VLA和RLVR任务中存在光谱失效问题,并提出了Pion优化器作为补救方案。
关键实体
- Muon优化器
- Pion优化器
- AdamW