ViGeo:面向一致视频几何估计的前馈基础模型
本文介绍了ViGeo,一个用于从视频序列中恢复空间密集且时间一致的几何信息的前馈基础模型。该模型基于纯Transformer架构,无需特定任务的架构修改,支持流式、全序列和长视频推理。其关键设计是动态分块注意力,使模型在训练期间能接触双向和因果时间上下文,并在测试时自适应注意力模式。此外,研究团队引入了基于补全的数据精炼框架,以生成高质量训练目标。ViGeo在深度估计、表面法线估计和视频点图估计等任务上达到了最先进的性能。
First-Principle 上关于「Transformer模型」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍了ViGeo,一个用于从视频序列中恢复空间密集且时间一致的几何信息的前馈基础模型。该模型基于纯Transformer架构,无需特定任务的架构修改,支持流式、全序列和长视频推理。其关键设计是动态分块注意力,使模型在训练期间能接触双向和因果时间上下文,并在测试时自适应注意力模式。此外,研究团队引入了基于补全的数据精炼框架,以生成高质量训练目标。ViGeo在深度估计、表面法线估计和视频点图估计等任务上达到了最先进的性能。