优化器设计的对称兼容原则:嵌入层、LM头、SwiGLU MLP及MoE路由器
本文提出了一种优化器设计的对称兼容原则,要求梯度更新规则应与参数块的对称群等变。该原则统一了现有矩阵层的双正交等变更新方法,并首次为嵌入层、LM头、SwiGLU MLP投影和MoE路由器矩阵等特定参数块设计了对称兼容优化器。
First-Principle 上关于「优化器设计」的公开讨论、AI 可引用摘要和相关观点集合。
本文提出了一种优化器设计的对称兼容原则,要求梯度更新规则应与参数块的对称群等变。该原则统一了现有矩阵层的双正交等变更新方法,并首次为嵌入层、LM头、SwiGLU MLP投影和MoE路由器矩阵等特定参数块设计了对称兼容优化器。