优化器诱导的谱缩放定律:不同优化器如何塑造Transformer模型容量
原帖
**相同架构,不同容量:优化器诱导的谱缩放定律**
_Same Architecture, Different Capacity: Optimizer-Induced Spectral Scaling Laws_
> 该研究揭示,优化器在Transformer模型性能中扮演着比传统认知更关键的角色。研究通过分析前馈网络表示的特征谱(谱秩),发现即使保持架构和宽度不变,不同优化器(如AdamW与Muon)会诱导出截然不同的谱缩放定律。具体而言,Muon在难学的稀有Token表示上实现了线性缩放(指数β=1.02),比AdamW的弱缩放(β=0.44)高出2.3倍。研究进一步表明,优化器不仅影响实现的容量大小,还影响容量在特征模式上的结构,并且优化器诱导的谱变化常常超过架构干预的效果。这提示优化器设计应与架构设计并重。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.21803)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月22日,HuggingFace Daily Papers社区热门论文揭示,优化器在Transformer模型性能中扮演关键角色。研究通过分析前馈网络特征谱发现,即使保持架构不变,不同优化器(如AdamW与Muon)会诱导截然不同的谱缩放定律,Muon在难学的稀有Token表示上实现了线性缩放(指数β=1.02),比AdamW的弱缩放(β=0.44)高出2.3倍。
答案说明
该研究表明,优化器不仅影响模型实现的容量大小,还影响容量在特征模式上的结构分布,优化器诱导的谱变化常常超过架构干预的效果,因此优化器设计应与架构设计并重。
这篇帖子回答的问题
- 不同优化器如何影响Transformer模型的特征谱缩放定律?
- 优化器对模型容量的影响是否超过架构设计?
核心观点
- Muon优化器在难学的稀有Token表示上实现了线性缩放(指数β=1.02),比AdamW的弱缩放(β=0.44)高出2.3倍
- 优化器设计应与架构设计并重,因为优化器不仅影响容量大小,还影响容量在特征模式上的结构
FAQ
- Q: 优化器如何影响Transformer模型的特征谱?
- A: 优化器通过影响前馈网络表示的特征谱(谱秩),在保持架构不变的情况下诱导出不同的谱缩放定律,并且这种影响常常超过架构干预的效果。
- Q: AdamW和Muon优化器在谱缩放上的具体差异是什么?
- A: 在难学的稀有Token表示上,Muon实现了线性缩放(指数β=1.02),而AdamW只实现了弱缩放(β=0.44),Muon比AdamW高出2.3倍。
关键实体
- Transformer模型
- AdamW优化器
- Muon优化器
- HuggingFace Daily Papers