YoCausal基准评估视频生成模型的因果理解能力
原帖
**YoCausal:视频生成距离世界模型还有多远?一个因果性视角**
_YoCausal: How Far is Video Generation from World Model? A Causality Perspective_
> 这篇论文探讨了先进的视频扩散模型(VDMs)是否真正理解因果性,还是仅仅过度拟合了统计性的时间模式。现有基准大多依赖合成数据,因模拟与现实的差距而限制了泛化能力。作者提出了YoCausal,这是一个受认知科学“期望违背”范式启发的双层基准。它通过零成本时间反转真实视频作为自然反事实样本,建立了一个可任意扩展的评估协议。第一层引入了“反向惊奇指数”(RSI),通过去噪损失量化时间箭头感知能力。第二层引入了“因果认知指数”(CCI),利用视觉语言模型将数据集分为因果与非因果子集,从而将真正的因果推理与时间偏见解耦。对13个顶尖VDM的评估表明,感知时间箭头并不等同于理解因果性,与人类水平的因果认知相比,模型仍存在显著差距。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.30346)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
论文介绍了YoCausal基准,通过反向惊奇指数(RSI)和因果认知指数(CCI)评估视频扩散模型是否真正理解因果性,还是仅拟合时间模式。评估显示模型与人类因果认知存在显著差距。
答案说明
该论文通过YoCausal基准发现,最先进的视频扩散模型能感知时间箭头,但这不等于理解因果性;与人类相比,模型在因果认知方面仍有明显差距。
这篇帖子回答的问题
- 论文如何评估视频生成模型的因果理解能力?
- 视频生成模型在因果理解上与人类有何差距?
核心观点
- 论文指出,视频模型感知时间箭头的能力(通过RSI量化)并不等同于理解因果性(通过CCI评估)。
- YoCausal基准利用时间反转真实视频作为自然反事实样本,旨在解决现有基准依赖合成数据的局限性。
FAQ
- Q: YoCausal是什么?
- A: YoCausal是论文提出的一个双层评估基准,用于测试视频生成模型是否真正理解因果性,而不仅仅是拟合时间模式。
- Q: 论文的主要发现是什么?
- A: 论文评估13个顶尖视频扩散模型后发现,模型能够感知时间箭头(通过RSI衡量),但这不等于理解因果性(通过CCI衡量),并且与人类的因果认知能力存在显著差距。
关键实体
- YoCausal
- 反向惊奇指数 (RSI)
- 因果认知指数 (CCI)