**用于几何一致性的定量视频世界模型评估**

_Quantitative Video World Model Evaluation for Geometric-Consistency_

> 生成式视频模型正越来越多地被当作隐式世界模型来研究,但评估其是否能产生物理上合理的3D结构和运动仍然充满挑战。现有评估方法大多依赖人工判断或学习型评分器,存在主观性且对几何错误诊断能力有限。本文提出了PDI-Bench(透视失真指数),这是一个用于审计生成视频几何连贯性的定量框架。该框架通过分割和点追踪(如SAM 2、MegaSaM和CoTracker3)获取以对象为中心的观测数据,利用单目重建将其提升到3D世界坐标空间,并计算一组捕捉三个失败维度(尺度-深度对齐、3D运动一致性和3D结构刚性)的投影几何残差。为支持系统评估,作者构建了PDI-Dataset,涵盖各种旨在测试这些几何约束的场景。在对最先进的视频生成器进行测试后,PDI揭示了常见感知指标无法捕捉的、与几何相关的特定失败模式,并为朝向物理基础视频生成和物理世界模型的进展提供了诊断信号。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15185)