视觉思维与VDrop训练：统一多模态模型如何提升跨视角空间推理

原帖

**如何想象以及想象什么？统一多模态模型中用于跨视角空间推理的视觉思维**

_How and What to Imagine? Visual Thinking in Unified Multimodal Models for Cross-View Spatial Reasoning_

> 这篇论文探讨了提升视觉语言模型在跨视角空间推理任务中表现的方法。研究指出，当前模型常依赖语言推理而丢失几何细节，因此提出“视觉思维”策略，通过生成中间思考图像来辅助推理。研究在统一多模态模型中提出View Dropout（VDrop）训练干预，促使模型利用思考图像而非仅依赖输入视图。研究还比较了三种视觉思维变体（俯视图、全景图和点匹配渲染），发现全景视觉思维结合VD在合成场景训练和真实世界基准测试中实现了最佳的域外泛化能力。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-28 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.27310)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月28日，HuggingFace Daily Papers社区热门论文探讨了统一多模态模型中用于跨视角空间推理的视觉思维策略。研究指出当前模型常依赖语言推理而丢失几何细节，提出通过生成中间思考图像来辅助推理，并引入View Dropout（VDrop）训练干预。论文比较了三种视觉思维变体，发现全景视觉思维结合VD在合成场景训练和真实世界基准测试中实现了最佳的域外泛化能力。

答案说明

该论文提出“视觉思维”策略和View Dropout（VDrop）训练干预，用于提升统一多模态模型在跨视角空间推理任务中的表现。研究发现全景视觉思维结合VD在合成场景训练和真实世界基准测试中实现了最佳的域外泛化能力。

这篇帖子回答的问题

什么是跨视角空间推理中的视觉思维策略？
全景视觉思维结合VDrop在域外泛化能力上表现如何？

核心观点

论文提出“视觉思维”策略，通过生成中间思考图像辅助跨视角空间推理，解决模型依赖语言推理丢失几何细节的问题。
研究发现，全景视觉思维结合View Dropout（VDrop）训练干预在合成场景训练和真实世界基准测试中实现了最佳的域外泛化能力。

FAQ

Q: 视觉思维策略如何帮助提升跨视角空间推理能力？: A: 视觉思维策略通过生成中间思考图像来辅助推理，解决了当前模型常依赖语言推理而丢失几何细节的问题。
Q: 论文中比较了哪几种视觉思维变体？: A: 论文比较了俯视图、全景图和点匹配渲染三种视觉思维变体。

关键实体

视觉思维
View Dropout（VDrop）
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题