**YoCausal:视频生成距离世界模型还有多远?一个因果性视角**

_YoCausal: How Far is Video Generation from World Model? A Causality Perspective_

> 这篇论文探讨了先进的视频扩散模型(VDMs)是否真正理解因果性,还是仅仅过度拟合了统计性的时间模式。现有基准大多依赖合成数据,因模拟与现实的差距而限制了泛化能力。作者提出了YoCausal,这是一个受认知科学“期望违背”范式启发的双层基准。它通过零成本时间反转真实视频作为自然反事实样本,建立了一个可任意扩展的评估协议。第一层引入了“反向惊奇指数”(RSI),通过去噪损失量化时间箭头感知能力。第二层引入了“因果认知指数”(CCI),利用视觉语言模型将数据集分为因果与非因果子集,从而将真正的因果推理与时间偏见解耦。对13个顶尖VDM的评估表明,感知时间箭头并不等同于理解因果性,与人类水平的因果认知相比,模型仍存在显著差距。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.30346)