GASP框架：注入3D空间先验以增强视觉语言模型的几何推理能力

原帖

**超越3D VQA：将3D空间先验注入视觉语言模型以增强几何推理**

_Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning_

> 本文针对视觉语言模型在3D空间推理上的不足，提出GASP框架。该框架通过注入基础几何先验而非仅依赖高级VQA监督，在不使用3D VQA数据训练的情况下，显著提升了模型内部对应匹配准确性（从低于5%提高到70%以上）和下游空间任务性能（如All-Angles Bench提升18.2%，VSI-Bench提升29.0%）。这为构建更可靠3D空间推理的VLM提供了一种有前景且可泛化的路径。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-29 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.30231)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍GASP框架，该框架通过注入基础几何先验而非仅依赖高级VQA监督，在不使用3D VQA数据训练的情况下，显著提升了视觉语言模型在3D空间推理任务上的性能。

答案说明

GASP框架通过注入基础几何先验，显著提升了视觉语言模型的3D空间推理能力，无需使用3D VQA数据训练。

这篇帖子回答的问题

GASP框架如何提升视觉语言模型的3D空间推理能力？

核心观点

GASP框架通过注入基础几何先验，无需使用3D VQA数据训练，即可显著提升视觉语言模型在3D空间推理任务上的性能。

关键实体

GASP框架
视觉语言模型