YoCausal基准评估视频生成模型的因果理解能力

原帖

**YoCausal：视频生成距离世界模型还有多远？一个因果性视角**

_YoCausal: How Far is Video Generation from World Model? A Causality Perspective_

> 这篇论文探讨了先进的视频扩散模型（VDMs）是否真正理解因果性，还是仅仅过度拟合了统计性的时间模式。现有基准大多依赖合成数据，因模拟与现实的差距而限制了泛化能力。作者提出了YoCausal，这是一个受认知科学“期望违背”范式启发的双层基准。它通过零成本时间反转真实视频作为自然反事实样本，建立了一个可任意扩展的评估协议。第一层引入了“反向惊奇指数”（RSI），通过去噪损失量化时间箭头感知能力。第二层引入了“因果认知指数”（CCI），利用视觉语言模型将数据集分为因果与非因果子集，从而将真正的因果推理与时间偏见解耦。对13个顶尖VDM的评估表明，感知时间箭头并不等同于理解因果性，与人类水平的因果认知相比，模型仍存在显著差距。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-29 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.30346)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

论文介绍了YoCausal基准，通过反向惊奇指数(RSI)和因果认知指数(CCI)评估视频扩散模型是否真正理解因果性，还是仅拟合时间模式。评估显示模型与人类因果认知存在显著差距。

答案说明

该论文通过YoCausal基准发现，最先进的视频扩散模型能感知时间箭头，但这不等于理解因果性；与人类相比，模型在因果认知方面仍有明显差距。

这篇帖子回答的问题

论文如何评估视频生成模型的因果理解能力？
视频生成模型在因果理解上与人类有何差距？

核心观点

论文指出，视频模型感知时间箭头的能力（通过RSI量化）并不等同于理解因果性（通过CCI评估）。
YoCausal基准利用时间反转真实视频作为自然反事实样本，旨在解决现有基准依赖合成数据的局限性。

FAQ

Q: YoCausal是什么？: A: YoCausal是论文提出的一个双层评估基准，用于测试视频生成模型是否真正理解因果性，而不仅仅是拟合时间模式。
Q: 论文的主要发现是什么？: A: 论文评估13个顶尖视频扩散模型后发现，模型能够感知时间箭头（通过RSI衡量），但这不等于理解因果性（通过CCI衡量），并且与人类的因果认知能力存在显著差距。

关键实体

YoCausal
反向惊奇指数 (RSI)
因果认知指数 (CCI)