优化器设计的对称兼容原则：嵌入层、LM头、SwiGLU MLP及MoE路由器

原帖

**优化器设计的对称兼容原则：嵌入层、LM头、SwiGLU MLP及MoE路由器**

_Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers_

> 本文提出了一种优化器设计的对称兼容原则，要求梯度更新规则应与参数块的对称群等变。该原则统一了现有矩阵层的双正交等变更新方法（如随机谱下降、Muon等），并首次为嵌入层、LM头、SwiGLU MLP投影和MoE路由器矩阵等特定参数块设计了对称兼容优化器。这些优化器包括单侧谱更新、行范数更新等多种变体。在密集和稀疏MoE语言模型上的预训练实验表明，与AdamW相比，对称兼容更新能一致改善最终验证损失，并在某些情况下提升训练稳定性。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.18106)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文提出了一种优化器设计的对称兼容原则，要求梯度更新规则应与参数块的对称群等变。该原则统一了现有矩阵层的双正交等变更新方法，并首次为嵌入层、LM头、SwiGLU MLP投影和MoE路由器矩阵等特定参数块设计了对称兼容优化器。

答案说明

对称兼容优化器设计原则要求梯度更新与参数块对称群等变，为嵌入层、LM头、SwiGLU MLP投影和MoE路由器矩阵设计了单侧谱更新、行范数更新等变体。预训练实验表明，与AdamW相比，对称兼容更新能一致改善最终验证损失。

这篇帖子回答的问题

什么是优化器设计的对称兼容原则？
对称兼容优化器在预训练实验中相比AdamW表现如何？

核心观点

对称兼容原则统一了现有矩阵层的双正交等变更新方法，如随机谱下降和Muon。
首次为嵌入层、LM头、SwiGLU MLP投影和MoE路由器矩阵设计了对称兼容优化器。

FAQ

Q: 对称兼容优化器有哪些变体？: A: 对称兼容优化器包括单侧谱更新、行范数更新等多种变体。
Q: 对称兼容更新在哪些模型上进行了实验？: A: 在密集和稀疏MoE语言模型上进行了预训练实验。

关键实体

对称兼容原则
AdamW
SwiGLU MLP
MoE路由器