**为何大模型学习能力更强:容量、干扰与稀有任务保留的影响**

_Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention_

> 该论文研究了为什么大型模型能学习到小型模型无法学习的任务。作者提出幂律扩展已暗示大模型能学习小模型失败的那部分数据分布,并通过合成任务和OLMo模型(4M至40亿参数)实验验证。研究发现,小模型将神经元资源分配给高频或低复杂度任务,导致在稀有复杂任务上表现不佳,即使存在可表达任务的解。大模型则通过减少干扰机制来规避这一问题:它们能为常见任务分配足够资源,使这些任务的梯度更新变弱,从而不会覆盖稀有任务的特征。研究提供了数据驱动的解释,有助于理解模型规模选择和训练数据混合。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.29548)