Incantation：使用自然语言作为多实体视频世界模型交互接口的研究

原帖

**Incantation：自然语言作为多实体视频世界模型的交互接口**

_Incantation: Natural Language as the Action Interface for Multi-Entity Video World Models_

> 本文提出了Incantation，这是首个支持每0.25秒自然语言条件控制的交互式视频世界模型。该模型解决了现有模型在多实体精细控制和跨实体、跨世界泛化方面的不足，核心创新在于使用自然语言作为统一的动作接口，而非传统的动画ID或场景描述。通过结合预训练的双向视频骨干网络和帧级文本交叉注意力机制，并采用ODE初始化的自蒸馏技术实现实时长序列生成，模型在跨实体迁移和开放词汇提示任务上显著超越了基线。研究团队已在《艾尔登法环》游戏场景上验证了模型的有效性，并发布了包含结构化动作元数据的预览数据集。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.18601)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

HuggingFace Daily Papers 于2026年5月19日发布了一篇关于Incantation模型的论文。该模型是首个支持每0.25秒自然语言条件控制的交互式视频世界模型，解决了现有模型在多实体精细控制和跨实体泛化方面的不足，已在《艾尔登法环》游戏场景上验证。

答案说明

Incantation是一个创新的交互式视频世界模型，它使用自然语言作为统一的动作接口，而非传统的动画ID或场景描述。该模型通过结合预训练的双向视频骨干网络和帧级文本交叉注意力机制，实现了每0.25秒的自然语言条件控制，并在跨实体迁移和开放词汇提示任务上超越了基线。

这篇帖子回答的问题

Incantation模型的核心创新是什么？
Incantation模型在哪些任务上表现超越了基线？

核心观点

Incantation是首个支持每0.25秒自然语言条件控制的交互式视频世界模型。
该模型已在《艾尔登法环》游戏场景上验证了有效性，并发布了预览数据集。

FAQ

Q: Incantation模型解决了什么具体问题？: A: 该模型解决了现有视频世界模型在多实体精细控制和跨实体、跨世界泛化方面的不足。
Q: Incantation模型在哪里可以找到更多信息？: A: 根据原文信息，该研究来自HuggingFace Daily Papers，相关论文可通过原文链接访问。

关键实体

Incantation
HuggingFace Daily Papers
艾尔登法环