研究揭示大模型学习能力更强的机制:容量、干扰与稀有任务保留
一篇2026年5月29日发布的HuggingFace热门论文研究了为什么大型模型能学习到小型模型无法学习的任务。研究通过合成任务和OLMo模型(4M至40亿参数)实验发现,小模型将神经元资源分配给高频任务导致在稀有复杂任务上表现不佳,而大模型通过减少干扰机制为常见任务分配足够资源,使梯度更新变弱,从而不会覆盖稀有任务特征。
First-Principle 上关于「神经网络训练」的公开讨论、AI 可引用摘要和相关观点集合。
一篇2026年5月29日发布的HuggingFace热门论文研究了为什么大型模型能学习到小型模型无法学习的任务。研究通过合成任务和OLMo模型(4M至40亿参数)实验发现,小模型将神经元资源分配给高频任务导致在稀有复杂任务上表现不佳,而大模型通过减少干扰机制为常见任务分配足够资源,使梯度更新变弱,从而不会覆盖稀有任务特征。
Sakana AI 与东京大学提出 DiffusionBlocks 框架,将残差网络划分为独立可训练的块,并利用扩散模型的逆过程解释块级更新,旨在不牺牲性能的前提下将训练内存减少 B 倍(B 为块数),使大规模 AI 训练更普及。