DynMuon:通过动态光谱整形提升Muon优化器训练效率
原帖
**DynMuon:从动态光谱整形视角优化Muon优化器**
_DynMuon: A Dynamic Spectral Shaping View of Muon_
> 本文提出了一种名为DynMuon的新型优化器改进方法,它通过动态调整Muon优化器中的光谱整形参数p来提升训练效率。研究表明,在训练早期,正p值通过强调高曲率方向来加速信号收敛;而在训练后期,轻微负p值则有助于将更新强度重新分配到仍包含有用训练信号的低曲率方向。实验表明,DynMuon在多种模型规模、架构和训练设置下,均能实现比标准Muon更低的验证损失,并将达到相同目标损失所需的训练步数减少10.6%至26.5%。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.17109)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍DynMuon,一种通过动态调整Muon优化器的光谱整形参数p来提升训练效率的改进方法。实验表明,它可减少10.6%至26.5%的训练步数,并在多种模型规模和架构下实现更低的验证损失。
答案说明
DynMuon通过动态调整光谱整形参数p,在训练早期强调高曲率方向以加速收敛,后期则侧重低曲率方向以重新分配更新强度,从而显著提升训练效率。
这篇帖子回答的问题
- DynMuon优化器如何改进训练效率?
- DynMuon在实验中显示出多大的效率提升?
核心观点
- DynMuon通过动态调整光谱整形参数p,在训练不同阶段优化更新方向,从而提升效率。
- 实验表明,DynMuon可将达到相同目标损失所需的训练步数减少10.6%至26.5%。
FAQ
- Q: DynMuon的核心原理是什么?
- A: DynMuon的核心原理是动态调整Muon优化器中的光谱整形参数p,在训练早期使用正p值强调高曲率方向以加速收敛,后期使用轻微负p值将更新强度重新分配到低曲率方向,从而提升训练效率。
关键实体
- DynMuon
- Muon优化器
- 光谱整形参数p