基于香农理论的LLM扩展定律论文摘要

原帖

**基于香农理论的LLM扩展定律：将大语言模型训练建模为有噪信道信息传输**

_LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws_

> 现有大语言模型（LLM）扩展定律（主要是单调幂律）无法解释灾难性过训练和量化性能下降等非单调现象。本文提出“香农扩展定律”这一统一理论框架，将LLM训练过程建模为基于香农-哈特利定理的有噪信道信息传输。通过将模型参数映射为信道带宽、训练数据映射为信号功率，该理论显式刻画了学习信号与内在噪声的交互作用。研究揭示了LLM存在一个基本的香农容量：在信噪比（SNR）不足的情况下扩展模型规模或数据量，必然会放大噪声，导致模型性能从单调提升转变为U型下降。作者在Pythia和OLMo2模型上进行了实验验证，涵盖高斯噪声、量化以及数学、问答和代码任务的监督微调等扰动场景。结果表明，“香农扩展定律”优于经典扩展定律和近期考虑扰动的定律，能准确捕捉损失盆地，并展现出良好的外推能力（例如在6.9B Pythia模型上拟合后，可预测12B模型在307B tokens上的性能，R²=0.847）。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-25 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.23901)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

一篇社区热门论文提出‘香农扩展定律’，将大语言模型训练建模为有噪信道信息传输，以解释灾难性过训练等非单调现象。该理论将模型参数映射为信道带宽、训练数据映射为信号功率，并指出了模型存在基本的香农容量。作者在Pythia和OLMo2模型上进行了实验验证。

答案说明

这篇论文提出‘香农扩展定律’，一个将LLM训练建模为香农-哈特利定理有噪信道传输的理论框架。它通过引入信道带宽（模型参数）和信号功率（训练数据）来刻画学习信号与噪声的交互，揭示了当信噪比不足时，扩大模型或数据规模会放大噪声并导致性能下降（U型曲线）。该定律在Pythia和OLMo2模型上得到验证，并能较好地外推预测新模型的性能。

这篇帖子回答的问题

什么是‘香农扩展定律’？
这篇论文如何解释LLM扩展中的非单调现象？

核心观点

论文提出‘香农扩展定律’，将LLM训练建模为有噪信道信息传输，以解释灾难性过训练等经典扩展定律无法解释的现象。
该理论在Pythia和OLMo2模型上得到验证，并展现出良好的外推预测能力。

FAQ

Q: 这篇论文的核心理论贡献是什么？: A: 提出了‘香农扩展定律’，将LLM训练建模为香农-哈特利定理的有噪信道传输，以统一解释扩展定律中的单调和非单调现象。
Q: 该研究在哪些模型上进行了验证？: A: 作者在Pythia和OLMo2模型上进行了实验验证。

关键实体

香农扩展定律
大语言模型 (LLM)
Pythia模型
OLMo2模型