内存高效训练

Hacker News：AI 热帖 · 2026-05-31T09:37:13.998Z

Sakana AI 与东京大学提出 DiffusionBlocks 框架，将残差网络划分为独立可训练的块，并利用扩散模型的逆过程解释块级更新，旨在不牺牲性能的前提下将训练内存减少 B 倍（B 为块数），使大规模 AI 训练更普及。

精选帖子