**从看到想:解耦感知与推理可提升视觉语言模型的后训练效果**

_From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models_

> 本文针对视觉语言模型(VLM)在长链思维推理中的性能瓶颈展开研究,发现其视觉任务表现受限于视觉感知而非推理能力。作者提出将后训练分解为三个阶段:视觉感知、视觉推理和文本推理,并使用针对性数据分别优化。实验表明,分阶段训练优于混合训练,能同步提升感知与推理性能;通过强化学习优化的视觉感知比基于描述的监督微调更有效。该方法在多个VLM上实现了推理准确率提升1.5%、推理路径缩短20.8%的效果,并在WeMath(+5.2%)和RealWorldQA(+3.7%)等基准测试中达到开源VLM的先进水平。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-25 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20177)