**如何想象以及想象什么?统一多模态模型中用于跨视角空间推理的视觉思维**

_How and What to Imagine? Visual Thinking in Unified Multimodal Models for Cross-View Spatial Reasoning_

> 这篇论文探讨了提升视觉语言模型在跨视角空间推理任务中表现的方法。研究指出,当前模型常依赖语言推理而丢失几何细节,因此提出“视觉思维”策略,通过生成中间思考图像来辅助推理。研究在统一多模态模型中提出View Dropout(VDrop)训练干预,促使模型利用思考图像而非仅依赖输入视图。研究还比较了三种视觉思维变体(俯视图、全景图和点匹配渲染),发现全景视觉思维结合VD在合成场景训练和真实世界基准测试中实现了最佳的域外泛化能力。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-28 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.27310)