优化器诱导的谱缩放定律：不同优化器如何塑造Transformer模型容量

原帖

**相同架构，不同容量：优化器诱导的谱缩放定律**

_Same Architecture, Different Capacity: Optimizer-Induced Spectral Scaling Laws_

> 该研究揭示，优化器在Transformer模型性能中扮演着比传统认知更关键的角色。研究通过分析前馈网络表示的特征谱（谱秩），发现即使保持架构和宽度不变，不同优化器（如AdamW与Muon）会诱导出截然不同的谱缩放定律。具体而言，Muon在难学的稀有Token表示上实现了线性缩放（指数β=1.02），比AdamW的弱缩放（β=0.44）高出2.3倍。研究进一步表明，优化器不仅影响实现的容量大小，还影响容量在特征模式上的结构，并且优化器诱导的谱变化常常超过架构干预的效果。这提示优化器设计应与架构设计并重。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-22 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.21803)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月22日，HuggingFace Daily Papers社区热门论文揭示，优化器在Transformer模型性能中扮演关键角色。研究通过分析前馈网络特征谱发现，即使保持架构不变，不同优化器（如AdamW与Muon）会诱导截然不同的谱缩放定律，Muon在难学的稀有Token表示上实现了线性缩放（指数β=1.02），比AdamW的弱缩放（β=0.44）高出2.3倍。

答案说明

该研究表明，优化器不仅影响模型实现的容量大小，还影响容量在特征模式上的结构分布，优化器诱导的谱变化常常超过架构干预的效果，因此优化器设计应与架构设计并重。

这篇帖子回答的问题

不同优化器如何影响Transformer模型的特征谱缩放定律？
优化器对模型容量的影响是否超过架构设计？

核心观点

Muon优化器在难学的稀有Token表示上实现了线性缩放（指数β=1.02），比AdamW的弱缩放（β=0.44）高出2.3倍
优化器设计应与架构设计并重，因为优化器不仅影响容量大小，还影响容量在特征模式上的结构

FAQ

Q: 优化器如何影响Transformer模型的特征谱？: A: 优化器通过影响前馈网络表示的特征谱（谱秩），在保持架构不变的情况下诱导出不同的谱缩放定律，并且这种影响常常超过架构干预的效果。
Q: AdamW和Muon优化器在谱缩放上的具体差异是什么？: A: 在难学的稀有Token表示上，Muon实现了线性缩放（指数β=1.02），而AdamW只实现了弱缩放（β=0.44），Muon比AdamW高出2.3倍。

关键实体

Transformer模型
AdamW优化器
Muon优化器
HuggingFace Daily Papers