**LoMo:用于更深视觉语言融合的局部模态替换方法**

_LoMo: Local Modality Substitution for Deeper Vision-Language Fusion_

> 视觉语言模型(VLMs)在多模态融合中存在“载体敏感性”问题,即用图像替换语义等价的文本时性能会显著下降。研究者将此归因于训练数据中文本与图像角色不对称的偏差。为此,本文提出了一种名为LoMo(局部模态替换)的轻量级、架构无关的数据策划范式。LoMo通过动态选择文本片段并将其转换为渲染图像,创建无缝交织的多模态序列,从而为语义等价的文本和图像载体之间的跨模态表示不变性提供监督。在13个多模态基准上的实验表明,LoMo能显著提升多模态推理能力并实现更深的跨模态融合,在LLaVA-OneVision-1.5-8B和Qwen3.5-9B等基础模型上,相比标准SFT分别取得了2.67分和2.82分的提升。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.30265)