用于几何一致性的定量视频世界模型评估:PDI-Bench框架
原帖
**用于几何一致性的定量视频世界模型评估**
_Quantitative Video World Model Evaluation for Geometric-Consistency_
> 生成式视频模型正越来越多地被当作隐式世界模型来研究,但评估其是否能产生物理上合理的3D结构和运动仍然充满挑战。现有评估方法大多依赖人工判断或学习型评分器,存在主观性且对几何错误诊断能力有限。本文提出了PDI-Bench(透视失真指数),这是一个用于审计生成视频几何连贯性的定量框架。该框架通过分割和点追踪(如SAM 2、MegaSaM和CoTracker3)获取以对象为中心的观测数据,利用单目重建将其提升到3D世界坐标空间,并计算一组捕捉三个失败维度(尺度-深度对齐、3D运动一致性和3D结构刚性)的投影几何残差。为支持系统评估,作者构建了PDI-Dataset,涵盖各种旨在测试这些几何约束的场景。在对最先进的视频生成器进行测试后,PDI揭示了常见感知指标无法捕捉的、与几何相关的特定失败模式,并为朝向物理基础视频生成和物理世界模型的进展提供了诊断信号。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15185)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了PDI-Bench(透视失真指数),一个用于定量评估生成视频几何连贯性的框架。该框架通过分割、点追踪和单目重建技术,分析视频在尺度-深度对齐、3D运动一致性和3D结构刚性三个维度的表现,并揭示了常见感知指标无法捕捉的几何失败模式。
答案说明
PDI-Bench是一个用于评估视频世界模型几何一致性的定量框架,它通过分析投影几何残差来诊断生成视频在3D结构和运动方面的特定失败模式。
这篇帖子回答的问题
- 什么是PDI-Bench?它用于评估什么?
- PDI-Bench评估视频几何一致性的哪些具体维度?
核心观点
- 本文介绍了PDI-Bench(透视失真指数),一个用于定量评估生成视频几何连贯性的框架。该框架通过分割、点追踪和单目重建技术,分析视频在尺度-深度对齐、3D运动一致性和3D结构刚性三个维度的表现,并揭示了常见感知指标无法捕捉的几何失败模式。
FAQ
- Q: PDI-Bench如何评估视频的几何一致性?
- A: PDI-Bench通过分割和点追踪技术获取观测数据,利用单目重建提升到3D空间,然后计算捕捉尺度-深度对齐、3D运动一致性和3D结构刚性三个维度的投影几何残差来进行评估。
- Q: 现有的视频生成模型评估方法有什么局限性?
- A: 现有评估方法大多依赖人工判断或学习型评分器,存在主观性且对几何错误诊断能力有限。
关键实体
- PDI-Bench
- SAM 2
- MegaSaM
- CoTracker3