**释放视觉语言模型中的密集度量深度估计能力**

_Unlocking Dense Metric Depth Estimation in VLMs_

> 本文提出了一种名为DepthVLM的新框架,旨在将单个视觉语言模型(VLM)转变为原生密集几何预测器,同时保留其多模态能力。该方法通过在LLM骨干网络上附加一个轻量级深度预测头,并在统一的视觉-文本监督范式下进行两阶段训练,使VLM能在单次前向传播中生成全分辨率深度图和语言输出。论文还引入了一个VLM兼容格式的统一室内-外深度基准。实验表明,DepthVLM在推理效率上显著优于现有VLM,并超越了领先的纯视觉模型,提升了复杂3D空间推理能力,向真正的统一基础模型迈进。所有代码和检查点将公开发布。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15876)