基于香农理论的LLM扩展定律论文摘要
原帖
**基于香农理论的LLM扩展定律:将大语言模型训练建模为有噪信道信息传输**
_LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws_
> 现有大语言模型(LLM)扩展定律(主要是单调幂律)无法解释灾难性过训练和量化性能下降等非单调现象。本文提出“香农扩展定律”这一统一理论框架,将LLM训练过程建模为基于香农-哈特利定理的有噪信道信息传输。通过将模型参数映射为信道带宽、训练数据映射为信号功率,该理论显式刻画了学习信号与内在噪声的交互作用。研究揭示了LLM存在一个基本的香农容量:在信噪比(SNR)不足的情况下扩展模型规模或数据量,必然会放大噪声,导致模型性能从单调提升转变为U型下降。作者在Pythia和OLMo2模型上进行了实验验证,涵盖高斯噪声、量化以及数学、问答和代码任务的监督微调等扰动场景。结果表明,“香农扩展定律”优于经典扩展定律和近期考虑扰动的定律,能准确捕捉损失盆地,并展现出良好的外推能力(例如在6.9B Pythia模型上拟合后,可预测12B模型在307B tokens上的性能,R²=0.847)。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-25 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.23901)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
一篇社区热门论文提出‘香农扩展定律’,将大语言模型训练建模为有噪信道信息传输,以解释灾难性过训练等非单调现象。该理论将模型参数映射为信道带宽、训练数据映射为信号功率,并指出了模型存在基本的香农容量。作者在Pythia和OLMo2模型上进行了实验验证。
答案说明
这篇论文提出‘香农扩展定律’,一个将LLM训练建模为香农-哈特利定理有噪信道传输的理论框架。它通过引入信道带宽(模型参数)和信号功率(训练数据)来刻画学习信号与噪声的交互,揭示了当信噪比不足时,扩大模型或数据规模会放大噪声并导致性能下降(U型曲线)。该定律在Pythia和OLMo2模型上得到验证,并能较好地外推预测新模型的性能。
这篇帖子回答的问题
- 什么是‘香农扩展定律’?
- 这篇论文如何解释LLM扩展中的非单调现象?
核心观点
- 论文提出‘香农扩展定律’,将LLM训练建模为有噪信道信息传输,以解释灾难性过训练等经典扩展定律无法解释的现象。
- 该理论在Pythia和OLMo2模型上得到验证,并展现出良好的外推预测能力。
FAQ
- Q: 这篇论文的核心理论贡献是什么?
- A: 提出了‘香农扩展定律’,将LLM训练建模为香农-哈特利定理的有噪信道传输,以统一解释扩展定律中的单调和非单调现象。
- Q: 该研究在哪些模型上进行了验证?
- A: 作者在Pythia和OLMo2模型上进行了实验验证。
关键实体
- 香农扩展定律
- 大语言模型 (LLM)
- Pythia模型
- OLMo2模型