归一化层

大型语言模型中规模向量的研究：小参数如何产生大影响

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:10.935Z

根据First-Principle平台发布的一篇论文解读，研究人员系统分析了LLMs中归一化层内的规模向量。尽管规模向量仅占模型参数的很小一部分，但其移除会显著损害预训练效果。研究在Pre-Norm架构中揭示了规模向量通过自我放大的预条件效应优化训练，并提出了三种轻量级改进方法，在0.12B至2B参数规模的实验中展现出更优的扩展性和更低的终端损失。

精选帖子

大型语言模型中规模向量的研究：小参数如何产生大影响

相关作者