优化器设计的对称兼容原则:嵌入层、LM头、SwiGLU MLP及MoE路由器
原帖
**优化器设计的对称兼容原则:嵌入层、LM头、SwiGLU MLP及MoE路由器**
_Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers_
> 本文提出了一种优化器设计的对称兼容原则,要求梯度更新规则应与参数块的对称群等变。该原则统一了现有矩阵层的双正交等变更新方法(如随机谱下降、Muon等),并首次为嵌入层、LM头、SwiGLU MLP投影和MoE路由器矩阵等特定参数块设计了对称兼容优化器。这些优化器包括单侧谱更新、行范数更新等多种变体。在密集和稀疏MoE语言模型上的预训练实验表明,与AdamW相比,对称兼容更新能一致改善最终验证损失,并在某些情况下提升训练稳定性。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18106)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文提出了一种优化器设计的对称兼容原则,要求梯度更新规则应与参数块的对称群等变。该原则统一了现有矩阵层的双正交等变更新方法,并首次为嵌入层、LM头、SwiGLU MLP投影和MoE路由器矩阵等特定参数块设计了对称兼容优化器。
答案说明
对称兼容优化器设计原则要求梯度更新与参数块对称群等变,为嵌入层、LM头、SwiGLU MLP投影和MoE路由器矩阵设计了单侧谱更新、行范数更新等变体。预训练实验表明,与AdamW相比,对称兼容更新能一致改善最终验证损失。
这篇帖子回答的问题
- 什么是优化器设计的对称兼容原则?
- 对称兼容优化器在预训练实验中相比AdamW表现如何?
核心观点
- 对称兼容原则统一了现有矩阵层的双正交等变更新方法,如随机谱下降和Muon。
- 首次为嵌入层、LM头、SwiGLU MLP投影和MoE路由器矩阵设计了对称兼容优化器。
FAQ
- Q: 对称兼容优化器有哪些变体?
- A: 对称兼容优化器包括单侧谱更新、行范数更新等多种变体。
- Q: 对称兼容更新在哪些模型上进行了实验?
- A: 在密集和稀疏MoE语言模型上进行了预训练实验。
关键实体
- 对称兼容原则
- AdamW
- SwiGLU MLP
- MoE路由器