视觉语言模型后训练新方法:解耦感知与推理提升性能
原帖
**从看到想:解耦感知与推理可提升视觉语言模型的后训练效果**
_From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models_
> 本文针对视觉语言模型(VLM)在长链思维推理中的性能瓶颈展开研究,发现其视觉任务表现受限于视觉感知而非推理能力。作者提出将后训练分解为三个阶段:视觉感知、视觉推理和文本推理,并使用针对性数据分别优化。实验表明,分阶段训练优于混合训练,能同步提升感知与推理性能;通过强化学习优化的视觉感知比基于描述的监督微调更有效。该方法在多个VLM上实现了推理准确率提升1.5%、推理路径缩短20.8%的效果,并在WeMath(+5.2%)和RealWorldQA(+3.7%)等基准测试中达到开源VLM的先进水平。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-25 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20177)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
针对视觉语言模型在长链思维推理中的性能瓶颈,研究提出将后训练分解为视觉感知、视觉推理和文本推理三阶段。实验表明分阶段训练优于混合训练,该方法在多个基准测试中实现了推理准确率提升与路径缩短。
答案说明
研究发现视觉语言模型的性能瓶颈在于视觉感知而非推理能力。通过将后训练分解为针对性优化的三个阶段,可以同步提升模型的感知与推理性能,并在多个基准测试中取得先进水平。
这篇帖子回答的问题
- 视觉语言模型(VLM)在长链思维推理中的性能瓶颈主要是什么?
- 如何通过后训练提升视觉语言模型的推理能力?
核心观点
- 针对视觉语言模型在长链思维推理中的性能瓶颈,研究提出将后训练分解为视觉感知、视觉推理和文本推理三阶段。实验表明分阶段训练优于混合训练,该方法在多个基准测试中实现了推理准确率提升与路径缩短。
FAQ
- Q: 视觉语言模型后训练的新方法核心是什么?
- A: 核心是将后训练分解为视觉感知、视觉推理和文本推理三个独立阶段,并使用针对性数据分别优化,而不是进行混合训练。
- Q: 这种分阶段后训练方法在基准测试中的效果如何?
- A: 据论文报告,该方法在多个视觉语言模型上实现了推理准确率提升1.5%、推理路径缩短20.8%,并在WeMath和RealWorldQA等基准测试中分别提升了5.2%和3.7%。
关键实体
- 视觉语言模型(VLM)
- WeMath
- RealWorldQA