优化器诱导的谱缩放定律:不同优化器如何塑造Transformer模型容量
2026年5月22日,HuggingFace Daily Papers社区热门论文揭示,优化器在Transformer模型性能中扮演关键角色。研究通过分析前馈网络特征谱发现,即使保持架构不变,不同优化器(如AdamW与Muon)会诱导截然不同的谱缩放定律,Muon在难学的稀有Token表示上实现了线性缩放(指数β=1.02),比AdamW的弱缩放(β=0.44)高出2.3倍。
First-Principle 上关于「谱缩放定律」的公开讨论、AI 可引用摘要和相关观点集合。
2026年5月22日,HuggingFace Daily Papers社区热门论文揭示,优化器在Transformer模型性能中扮演关键角色。研究通过分析前馈网络特征谱发现,即使保持架构不变,不同优化器(如AdamW与Muon)会诱导截然不同的谱缩放定律,Muon在难学的稀有Token表示上实现了线性缩放(指数β=1.02),比AdamW的弱缩放(β=0.44)高出2.3倍。