**规模虽小,影响巨大:大型语言模型中的规模向量研究**

_Negligible in Size, Significant in Effect: On Scale Vectors in Large Language Models_

> 本文系统研究了大型语言模型(LLMs)中归一化层内的规模向量。尽管规模向量仅占模型参数的很小一部分,但研究发现移除它们会显著损害模型预训练效果。理论表明,在Pre-Norm架构中,规模向量并不增加表达性,而是通过自我放大的预条件效应优化后续线性映射的训练过程。研究还探讨了权重衰减对不同类型归一化层的影响,并提出了三种轻量级改进方法:分支特异性异质性、改进的线性映射周围放置方式以及大小-方向重参数化。这些改进被整合为一个统一策略,在不同规模(0.12B至2B参数)的密集和混合专家模型上进行了广泛预训练实验,结果表明该策略能持续获得更低的终端损失,并展现出更优的扩展性,同时增加的参数和计算开销可忽略不计。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26895)