**Incantation:自然语言作为多实体视频世界模型的交互接口**

_Incantation: Natural Language as the Action Interface for Multi-Entity Video World Models_

> 本文提出了Incantation,这是首个支持每0.25秒自然语言条件控制的交互式视频世界模型。该模型解决了现有模型在多实体精细控制和跨实体、跨世界泛化方面的不足,核心创新在于使用自然语言作为统一的动作接口,而非传统的动画ID或场景描述。通过结合预训练的双向视频骨干网络和帧级文本交叉注意力机制,并采用ODE初始化的自蒸馏技术实现实时长序列生成,模型在跨实体迁移和开放词汇提示任务上显著超越了基线。研究团队已在《艾尔登法环》游戏场景上验证了模型的有效性,并发布了包含结构化动作元数据的预览数据集。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18601)