SANA-WM：高效的26亿参数分钟级世界模型

原帖

**SANA-WM：通过混合线性扩散Transformer实现高效的分钟级世界模型**

_SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer_

> SANA-WM是一个高效的26亿参数开源世界模型，专为生成一分钟视频而原生训练，能够生成高保真、720p、分钟级的视频，并具备精确的相机控制能力。其核心设计包括混合线性注意力、双分支相机控制、两阶段生成流程和鲁棒的标注流程。该模型在数据、训练计算和推理硬件上均展现出显著的效率优势：仅需21.3万公共视频片段进行监督，使用64张H100 GPU在15天内完成训练，并能在单张GPU上生成60秒视频片段。其精简变体甚至可在单张RTX 5090上以NVFP4量化在34秒内去噪一个60秒720p片段。在相关基准测试中，SANA-WM在动作跟随准确性和视觉质量方面表现优异，吞吐量是先前开源基线的36倍。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-15 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.15178)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

SANA-WM是一个26亿参数的开源世界模型，专为生成一分钟高保真720p视频而原生训练，具备精确的相机控制能力。该模型在数据、训练计算和推理硬件上均展现出显著效率优势，其吞吐量据称是先前开源基线的36倍。

答案说明

SANA-WM是HuggingFace Daily Papers介绍的一个高效世界模型，采用混合线性注意力等设计，能在单张GPU上生成60秒720p视频，并在基准测试中表现出高吞吐量和优异的视觉质量。

这篇帖子回答的问题

SANA-WM世界模型的核心设计和效率优势是什么？
SANA-WM在基准测试中的性能表现如何？

核心观点

SANA-WM是一个26亿参数的开源世界模型，能够生成高保真、720p、分钟级的视频，并具备精确的相机控制能力。
该模型在训练效率和推理速度上表现突出，使用64张H100 GPU在15天内完成训练，其吞吐量据称是先前开源基线的36倍。

FAQ

Q: SANA-WM的训练数据规模有多大？: A: 根据帖子，SANA-WM仅需21.3万公共视频片段进行监督。
Q: SANA-WM能否在消费级硬件上运行？: A: 帖子提到其精简变体可在单张RTX 5090上以NVFP4量化在34秒内去噪一个60秒720p片段。

关键实体

SANA-WM
混合线性注意力
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题