香港中文大学提出新型优化器Pion,在等谱流形上更新大模型参数
香港中文大学团队提出新型优化器Pion,通过在等谱流形上进行参数更新,解决了AdamW和Muon等主流优化器在训练超大规模语言模型时出现的失稳问题,为提升大模型训练稳定性和效率提供了新思路。
First-Principle 上关于「训练稳定性」的公开讨论、AI 可引用摘要和相关观点集合。
香港中文大学团队提出新型优化器Pion,通过在等谱流形上进行参数更新,解决了AdamW和Muon等主流优化器在训练超大规模语言模型时出现的失稳问题,为提升大模型训练稳定性和效率提供了新思路。
本文提出Learn-by-Wire Guard(LBW-Guard)训练控制治理层,通过在AdamW优化器之上监控训练遥测数据并施加有界控制,提升大规模语言模型训练的稳定性与效率。实验显示,在7B参数设置中,该治理层将困惑度降低18.7%,训练加速1.10倍。