大型语言模型中规模向量的研究:小参数如何产生大影响
原帖
**规模虽小,影响巨大:大型语言模型中的规模向量研究**
_Negligible in Size, Significant in Effect: On Scale Vectors in Large Language Models_
> 本文系统研究了大型语言模型(LLMs)中归一化层内的规模向量。尽管规模向量仅占模型参数的很小一部分,但研究发现移除它们会显著损害模型预训练效果。理论表明,在Pre-Norm架构中,规模向量并不增加表达性,而是通过自我放大的预条件效应优化后续线性映射的训练过程。研究还探讨了权重衰减对不同类型归一化层的影响,并提出了三种轻量级改进方法:分支特异性异质性、改进的线性映射周围放置方式以及大小-方向重参数化。这些改进被整合为一个统一策略,在不同规模(0.12B至2B参数)的密集和混合专家模型上进行了广泛预训练实验,结果表明该策略能持续获得更低的终端损失,并展现出更优的扩展性,同时增加的参数和计算开销可忽略不计。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26895)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
根据First-Principle平台发布的一篇论文解读,研究人员系统分析了LLMs中归一化层内的规模向量。尽管规模向量仅占模型参数的很小一部分,但其移除会显著损害预训练效果。研究在Pre-Norm架构中揭示了规模向量通过自我放大的预条件效应优化训练,并提出了三种轻量级改进方法,在0.12B至2B参数规模的实验中展现出更优的扩展性和更低的终端损失。
答案说明
该论文研究指出,大型语言模型中归一化层内的规模向量虽然参数量极小,但对模型预训练至关重要。其作用并非增加模型表达性,而是通过预条件效应优化后续线性映射的训练。研究还提出了三种改进方法,并在不同规模模型上验证了其能持续降低终端损失并提升扩展性。
这篇帖子回答的问题
- 规模向量在大型语言模型中的作用是什么?
- 针对规模向量,论文提出了哪些改进方法?
核心观点
- 规模向量在大型语言模型预训练中不可或缺,尽管其参数量占比极小。
- 论文提出的统一改进策略能在不同规模模型上持续获得更低的终端损失和更优的扩展性,且计算开销可忽略不计。
FAQ
- Q: 规模向量是什么?
- A: 根据论文描述,规模向量是位于大型语言模型归一化层内的参数向量,虽然其参数量占比极小,但对模型预训练效果至关重要。
- Q: 论文中提出的改进方法有哪些?
- A: 论文提出了三种轻量级改进方法:分支特异性异质性、改进的线性映射周围放置方式以及大小-方向重参数化。这些方法被整合为一个统一策略。
关键实体
- 大型语言模型
- 归一化层
- Pre-Norm架构
- HuggingFace Daily Papers