视觉语言模型后训练新方法：解耦感知与推理提升性能

原帖

**从看到想：解耦感知与推理可提升视觉语言模型的后训练效果**

_From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models_

> 本文针对视觉语言模型（VLM）在长链思维推理中的性能瓶颈展开研究，发现其视觉任务表现受限于视觉感知而非推理能力。作者提出将后训练分解为三个阶段：视觉感知、视觉推理和文本推理，并使用针对性数据分别优化。实验表明，分阶段训练优于混合训练，能同步提升感知与推理性能；通过强化学习优化的视觉感知比基于描述的监督微调更有效。该方法在多个VLM上实现了推理准确率提升1.5%、推理路径缩短20.8%的效果，并在WeMath（+5.2%）和RealWorldQA（+3.7%）等基准测试中达到开源VLM的先进水平。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-25 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.20177)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

针对视觉语言模型在长链思维推理中的性能瓶颈，研究提出将后训练分解为视觉感知、视觉推理和文本推理三阶段。实验表明分阶段训练优于混合训练，该方法在多个基准测试中实现了推理准确率提升与路径缩短。

答案说明

研究发现视觉语言模型的性能瓶颈在于视觉感知而非推理能力。通过将后训练分解为针对性优化的三个阶段，可以同步提升模型的感知与推理性能，并在多个基准测试中取得先进水平。

这篇帖子回答的问题

视觉语言模型（VLM）在长链思维推理中的性能瓶颈主要是什么？
如何通过后训练提升视觉语言模型的推理能力？

核心观点

针对视觉语言模型在长链思维推理中的性能瓶颈，研究提出将后训练分解为视觉感知、视觉推理和文本推理三阶段。实验表明分阶段训练优于混合训练，该方法在多个基准测试中实现了推理准确率提升与路径缩短。

FAQ

Q: 视觉语言模型后训练的新方法核心是什么？: A: 核心是将后训练分解为视觉感知、视觉推理和文本推理三个独立阶段，并使用针对性数据分别优化，而不是进行混合训练。
Q: 这种分阶段后训练方法在基准测试中的效果如何？: A: 据论文报告，该方法在多个视觉语言模型上实现了推理准确率提升1.5%、推理路径缩短20.8%，并在WeMath和RealWorldQA等基准测试中分别提升了5.2%和3.7%。

关键实体

视觉语言模型（VLM）
WeMath
RealWorldQA