**优化器设计的对称兼容原则:嵌入层、LM头、SwiGLU MLP及MoE路由器**

_Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers_

> 本文提出了一种优化器设计的对称兼容原则,要求梯度更新规则应与参数块的对称群等变。该原则统一了现有矩阵层的双正交等变更新方法(如随机谱下降、Muon等),并首次为嵌入层、LM头、SwiGLU MLP投影和MoE路由器矩阵等特定参数块设计了对称兼容优化器。这些优化器包括单侧谱更新、行范数更新等多种变体。在密集和稀疏MoE语言模型上的预训练实验表明,与AdamW相比,对称兼容更新能一致改善最终验证损失,并在某些情况下提升训练稳定性。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18106)