**超越3D VQA:将3D空间先验注入视觉语言模型以增强几何推理**

_Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning_

> 本文针对视觉语言模型在3D空间推理上的不足,提出GASP框架。该框架通过注入基础几何先验而非仅依赖高级VQA监督,在不使用3D VQA数据训练的情况下,显著提升了模型内部对应匹配准确性(从低于5%提高到70%以上)和下游空间任务性能(如All-Angles Bench提升18.2%,VSI-Bench提升29.0%)。这为构建更可靠3D空间推理的VLM提供了一种有前景且可泛化的路径。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.30231)