DiffusionBlocks：逐块训练神经网络以减少内存消耗

原帖

**DiffusionBlocks：逐块训练神经网络**

_DiffusionBlocks: Training Neural Networks One Block at a Time_

> Sakana AI 和东京大学的研究者提出了DiffusionBlocks框架，通过将残差网络划分为独立可训练的块，并利用扩散模型的逆过程来解释块级更新，从而在不牺牲性能的前提下，将训练所需的内存减少B倍（B为块数）。该方法在视觉、图像生成和语言建模等架构上，性能与端到端反向传播相当。这项工作在ICLR 2026上发表，旨在降低大规模AI训练的内存门槛，使AI开发更加普及。

**来源信息**
- **来源**：Hacker News：AI 热帖
- **分类**：论文
- **发布时间**：2026-05-28 15:51（北京时间）
- **原文**：[打开原文](https://pub.sakana.ai/diffusionblocks)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

Sakana AI 与东京大学提出 DiffusionBlocks 框架，将残差网络划分为独立可训练的块，并利用扩散模型的逆过程解释块级更新，旨在不牺牲性能的前提下将训练内存减少 B 倍（B 为块数），使大规模 AI 训练更普及。

答案说明

DiffusionBlocks 是一种逐块训练神经网络的框架，通过将网络划分为独立块并利用扩散模型的逆过程进行更新，可以显著减少训练内存，同时在视觉、图像生成和语言建模等任务上保持与端到端反向传播相当的性能。

这篇帖子回答的问题

DiffusionBlocks 如何减少神经网络训练的内存消耗？
DiffusionBlocks 在哪些任务类型上进行了验证？

核心观点

DiffusionBlocks 框架通过将残差网络划分为独立可训练的块，利用扩散模型的逆过程进行更新，实现了在不牺牲性能的前提下显著减少训练内存。

FAQ

Q: DiffusionBlocks 框架由哪些机构提出？: A: Sakana AI 和东京大学的研究者。

关键实体

Sakana AI
东京大学
DiffusionBlocks
ICLR 2026