**minWM:一个用于实时交互式视频世界模型的完整开源框架**

_minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models_

> 该论文介绍了minWM,一个全栈开源框架,旨在将现有的双向视频扩散模型转换为支持相机控制、少步骤自回归的世界模型。它通过端到端流程(包括数据构建、可控微调、自回归训练、少步骤蒸馏和流式推理)解决了实时交互视频世界模型的关键挑战。框架基于开源骨干模型(如Wan2.1-T2V-1.3B和HY1.5-TI2V-8B),提供模块化设计,支持适配现有模型到新数据分布和延迟目标,并包含实验消融和资源发布。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.30263)