ViGeo：面向一致视频几何估计的前馈基础模型

原帖

**迈向一致的视频几何估计**

_Towards Consistent Video Geometry Estimation_

> 本文介绍了ViGeo，一个用于从视频序列中恢复空间密集且时间一致的几何信息的前馈基础模型。该模型基于纯Transformer架构，无需特定任务的架构修改，支持流式、全序列和长视频推理。其关键设计是动态分块注意力，使模型在训练期间能接触双向和因果时间上下文，并在测试时自适应注意力模式。此外，研究团队引入了基于补全的数据精炼框架，以生成高质量训练目标。ViGeo在深度估计、表面法线估计和视频点图估计等任务上达到了最先进的性能。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-29 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.30060)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了ViGeo，一个用于从视频序列中恢复空间密集且时间一致的几何信息的前馈基础模型。该模型基于纯Transformer架构，无需特定任务的架构修改，支持流式、全序列和长视频推理。其关键设计是动态分块注意力，使模型在训练期间能接触双向和因果时间上下文，并在测试时自适应注意力模式。此外，研究团队引入了基于补全的数据精炼框架，以生成高质量训练目标。ViGeo在深度估计、表面法线估计和视频点图估计等任务上达到了最先进的性能。

答案说明

ViGeo是一个前馈基础模型，用于从视频序列中恢复空间密集且时间一致的几何信息。它基于纯Transformer架构，支持流式、全序列和长视频推理，其关键设计是动态分块注意力。该模型在深度估计、表面法线估计和视频点图估计等任务上据称达到了最先进的性能。

这篇帖子回答的问题

ViGeo模型的主要设计是什么？
ViGeo在哪些视频几何估计任务上取得了先进性能？

核心观点

ViGeo是一个前馈基础模型，用于从视频序列中恢复空间密集且时间一致的几何信息，其关键设计是动态分块注意力。
根据该帖子，ViGeo在深度估计、表面法线估计和视频点图估计等任务上达到了最先进的性能。

FAQ

Q: ViGeo模型的关键设计是什么？: A: ViGeo模型的关键设计是动态分块注意力，使模型在训练期间能接触双向和因果时间上下文，并在测试时自适应注意力模式。
Q: ViGeo采用了什么框架来生成高质量训练目标？: A: ViGeo引入了基于补全的数据精炼框架，以生成高质量训练目标。

关键实体

ViGeo
动态分块注意力