多模态学习

针对视觉语言模型在长链思维推理中的性能瓶颈，研究提出将后训练分解为视觉感知、视觉推理和文本推理三阶段。实验表明分阶段训练优于混合训练，该方法在多个基准测试中实现了推理准确率提升与路径缩短。

精选帖子