**重新审视Muon优化器:VLA和RLVR训练中的光谱失效与高通补救方案**

_Rethinking Muon Beyond Pretraining: Spectral Failures and High-Pass Remedies for VLA and RLVR_

> 本文指出了Muon优化器在预训练后应用场景中的局限性,特别是在跨模态视觉-语言-动作(VLA)训练和强化学习与可验证奖励(RLVR)任务中。Muon虽然通过光谱梯度正交化提升了探索性,但会导致噪声放大和不稳定。为此,作者提出了Pion作为替代方案,它通过“提升+抑制”机制实现高通滤波效果,在保持计算效率的同时,有效抑制噪声并保留预训练的头部异质性。实验显示,Pion在VLA训练和RLVR后训练中均显著优于Muon和AdamW基线。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-25 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.19282)