DepthVLM：统一视觉语言模型与密集度量深度估计

原帖

**释放视觉语言模型中的密集度量深度估计能力**

_Unlocking Dense Metric Depth Estimation in VLMs_

> 本文提出了一种名为DepthVLM的新框架，旨在将单个视觉语言模型（VLM）转变为原生密集几何预测器，同时保留其多模态能力。该方法通过在LLM骨干网络上附加一个轻量级深度预测头，并在统一的视觉-文本监督范式下进行两阶段训练，使VLM能在单次前向传播中生成全分辨率深度图和语言输出。论文还引入了一个VLM兼容格式的统一室内-外深度基准。实验表明，DepthVLM在推理效率上显著优于现有VLM，并超越了领先的纯视觉模型，提升了复杂3D空间推理能力，向真正的统一基础模型迈进。所有代码和检查点将公开发布。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-18 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.15876)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月18日，HuggingFace Daily Papers社区热门论文介绍了DepthVLM框架。该框架旨在将单个视觉语言模型（VLM）转变为原生密集几何预测器，同时保留其多模态能力。论文声称该方法在推理效率上显著优于现有VLM，并提升了复杂3D空间推理能力。

答案说明

DepthVLM是一种新框架，通过在VLM的LLM骨干上附加轻量级深度预测头，并采用两阶段统一监督训练，使模型能在单次前向传播中同时生成全分辨率深度图和语言输出。论文报告其在效率和3D空间推理能力上有所提升。

这篇帖子回答的问题

DepthVLM框架如何实现视觉语言模型的深度估计？

核心观点

论文提出DepthVLM框架，通过附加深度预测头和两阶段训练，使单个VLM能同时进行深度估计和语言生成。
论文声称DepthVLM在推理效率上显著优于现有VLM，并提升了复杂3D空间推理能力。

FAQ

Q: DepthVLM如何提升视觉语言模型的深度估计能力？: A: 根据论文描述，DepthVLM通过在LLM骨干网络上附加一个轻量级深度预测头，并在统一的视觉-文本监督范式下进行两阶段训练来实现。这使得VLM能在单次前向传播中生成全分辨率深度图和语言输出。

关键实体

DepthVLM
视觉语言模型