**SANA-WM:通过混合线性扩散Transformer实现高效的分钟级世界模型**

_SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer_

> SANA-WM是一个高效的26亿参数开源世界模型,专为生成一分钟视频而原生训练,能够生成高保真、720p、分钟级的视频,并具备精确的相机控制能力。其核心设计包括混合线性注意力、双分支相机控制、两阶段生成流程和鲁棒的标注流程。该模型在数据、训练计算和推理硬件上均展现出显著的效率优势:仅需21.3万公共视频片段进行监督,使用64张H100 GPU在15天内完成训练,并能在单张GPU上生成60秒视频片段。其精简变体甚至可在单张RTX 5090上以NVFP4量化在34秒内去噪一个60秒720p片段。在相关基准测试中,SANA-WM在动作跟随准确性和视觉质量方面表现优异,吞吐量是先前开源基线的36倍。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15178)