Muon优化器在VLA和RLVR训练中的局限性及Pion补救方案

原帖

**重新审视Muon优化器：VLA和RLVR训练中的光谱失效与高通补救方案**

_Rethinking Muon Beyond Pretraining: Spectral Failures and High-Pass Remedies for VLA and RLVR_

> 本文指出了Muon优化器在预训练后应用场景中的局限性，特别是在跨模态视觉-语言-动作（VLA）训练和强化学习与可验证奖励（RLVR）任务中。Muon虽然通过光谱梯度正交化提升了探索性，但会导致噪声放大和不稳定。为此，作者提出了Pion作为替代方案，它通过“提升+抑制”机制实现高通滤波效果，在保持计算效率的同时，有效抑制噪声并保留预训练的头部异质性。实验显示，Pion在VLA训练和RLVR后训练中均显著优于Muon和AdamW基线。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-25 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.19282)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月25日，HuggingFace Daily Papers社区热门论文指出，Muon优化器在预训练后的视觉-语言-动作（VLA）和强化学习与可验证奖励（RLVR）任务中存在光谱失效问题，会导致噪声放大和不稳定。作者提出了Pion优化器，通过高通滤波机制有效抑制噪声，实验显示其性能显著优于Muon和AdamW基线。

答案说明

根据First-Principle平台发布的论文摘要，Muon优化器在VLA和RLVR后训练中因光谱梯度正交化导致噪声放大和不稳定。提出的Pion优化器通过“提升+抑制”的高通滤波机制解决了这一问题，并在实验中表现更优。

这篇帖子回答的问题

Muon优化器在哪些任务中存在光谱失效问题？
Pion优化器如何解决Muon的噪声问题？

核心观点

Muon优化器通过光谱梯度正交化提升探索性，但在VLA和RLVR后训练中会导致噪声放大和不稳定。
Pion优化器通过高通滤波机制在VLA和RLVR后训练中显著优于Muon和AdamW基线。

FAQ

Q: 这篇论文讨论了什么？: A: 该论文重新审视了Muon优化器，指出其在预训练后的VLA和RLVR任务中存在光谱失效问题，并提出了Pion优化器作为补救方案。

关键实体

Muon优化器
Pion优化器
AdamW

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题