SANA-WM:高效的26亿参数分钟级世界模型
原帖
**SANA-WM:通过混合线性扩散Transformer实现高效的分钟级世界模型**
_SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer_
> SANA-WM是一个高效的26亿参数开源世界模型,专为生成一分钟视频而原生训练,能够生成高保真、720p、分钟级的视频,并具备精确的相机控制能力。其核心设计包括混合线性注意力、双分支相机控制、两阶段生成流程和鲁棒的标注流程。该模型在数据、训练计算和推理硬件上均展现出显著的效率优势:仅需21.3万公共视频片段进行监督,使用64张H100 GPU在15天内完成训练,并能在单张GPU上生成60秒视频片段。其精简变体甚至可在单张RTX 5090上以NVFP4量化在34秒内去噪一个60秒720p片段。在相关基准测试中,SANA-WM在动作跟随准确性和视觉质量方面表现优异,吞吐量是先前开源基线的36倍。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15178)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
SANA-WM是一个26亿参数的开源世界模型,专为生成一分钟高保真720p视频而原生训练,具备精确的相机控制能力。该模型在数据、训练计算和推理硬件上均展现出显著效率优势,其吞吐量据称是先前开源基线的36倍。
答案说明
SANA-WM是HuggingFace Daily Papers介绍的一个高效世界模型,采用混合线性注意力等设计,能在单张GPU上生成60秒720p视频,并在基准测试中表现出高吞吐量和优异的视觉质量。
这篇帖子回答的问题
- SANA-WM世界模型的核心设计和效率优势是什么?
- SANA-WM在基准测试中的性能表现如何?
核心观点
- SANA-WM是一个26亿参数的开源世界模型,能够生成高保真、720p、分钟级的视频,并具备精确的相机控制能力。
- 该模型在训练效率和推理速度上表现突出,使用64张H100 GPU在15天内完成训练,其吞吐量据称是先前开源基线的36倍。
FAQ
- Q: SANA-WM的训练数据规模有多大?
- A: 根据帖子,SANA-WM仅需21.3万公共视频片段进行监督。
- Q: SANA-WM能否在消费级硬件上运行?
- A: 帖子提到其精简变体可在单张RTX 5090上以NVFP4量化在34秒内去噪一个60秒720p片段。
关键实体
- SANA-WM
- 混合线性注意力
- HuggingFace Daily Papers