**基于香农理论的LLM扩展定律:将大语言模型训练建模为有噪信道信息传输**

_LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws_

> 现有大语言模型(LLM)扩展定律(主要是单调幂律)无法解释灾难性过训练和量化性能下降等非单调现象。本文提出“香农扩展定律”这一统一理论框架,将LLM训练过程建模为基于香农-哈特利定理的有噪信道信息传输。通过将模型参数映射为信道带宽、训练数据映射为信号功率,该理论显式刻画了学习信号与内在噪声的交互作用。研究揭示了LLM存在一个基本的香农容量:在信噪比(SNR)不足的情况下扩展模型规模或数据量,必然会放大噪声,导致模型性能从单调提升转变为U型下降。作者在Pythia和OLMo2模型上进行了实验验证,涵盖高斯噪声、量化以及数学、问答和代码任务的监督微调等扰动场景。结果表明,“香农扩展定律”优于经典扩展定律和近期考虑扰动的定律,能准确捕捉损失盆地,并展现出良好的外推能力(例如在6.9B Pythia模型上拟合后,可预测12B模型在307B tokens上的性能,R²=0.847)。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-25 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.23901)