**相同架构,不同容量:优化器诱导的谱缩放定律**

_Same Architecture, Different Capacity: Optimizer-Induced Spectral Scaling Laws_

> 该研究揭示,优化器在Transformer模型性能中扮演着比传统认知更关键的角色。研究通过分析前馈网络表示的特征谱(谱秩),发现即使保持架构和宽度不变,不同优化器(如AdamW与Muon)会诱导出截然不同的谱缩放定律。具体而言,Muon在难学的稀有Token表示上实现了线性缩放(指数β=1.02),比AdamW的弱缩放(β=0.44)高出2.3倍。研究进一步表明,优化器不仅影响实现的容量大小,还影响容量在特征模式上的结构,并且优化器诱导的谱变化常常超过架构干预的效果。这提示优化器设计应与架构设计并重。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.21803)