谱缩放定律

优化器诱导的谱缩放定律：不同优化器如何塑造Transformer模型容量

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:12.258Z

2026年5月22日，HuggingFace Daily Papers社区热门论文揭示，优化器在Transformer模型性能中扮演关键角色。研究通过分析前馈网络特征谱发现，即使保持架构不变，不同优化器（如AdamW与Muon）会诱导截然不同的谱缩放定律，Muon在难学的稀有Token表示上实现了线性缩放（指数β=1.02），比AdamW的弱缩放（β=0.44）高出2.3倍。

精选帖子

优化器诱导的谱缩放定律：不同优化器如何塑造Transformer模型容量

相关作者