DynMuon:通过动态光谱整形提升Muon优化器训练效率
本文介绍DynMuon,一种通过动态调整Muon优化器的光谱整形参数p来提升训练效率的改进方法。实验表明,它可减少10.6%至26.5%的训练步数,并在多种模型规模和架构下实现更低的验证损失。
First-Principle 上关于「优化器改进」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍DynMuon,一种通过动态调整Muon优化器的光谱整形参数p来提升训练效率的改进方法。实验表明,它可减少10.6%至26.5%的训练步数,并在多种模型规模和架构下实现更低的验证损失。