**迈向一致的视频几何估计**

_Towards Consistent Video Geometry Estimation_

> 本文介绍了ViGeo,一个用于从视频序列中恢复空间密集且时间一致的几何信息的前馈基础模型。该模型基于纯Transformer架构,无需特定任务的架构修改,支持流式、全序列和长视频推理。其关键设计是动态分块注意力,使模型在训练期间能接触双向和因果时间上下文,并在测试时自适应注意力模式。此外,研究团队引入了基于补全的数据精炼框架,以生成高质量训练目标。ViGeo在深度估计、表面法线估计和视频点图估计等任务上达到了最先进的性能。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.30060)