LoMo：局部模态替换方法提升视觉语言模型融合深度

原帖

**LoMo：用于更深视觉语言融合的局部模态替换方法**

_LoMo: Local Modality Substitution for Deeper Vision-Language Fusion_

> 视觉语言模型（VLMs）在多模态融合中存在“载体敏感性”问题，即用图像替换语义等价的文本时性能会显著下降。研究者将此归因于训练数据中文本与图像角色不对称的偏差。为此，本文提出了一种名为LoMo（局部模态替换）的轻量级、架构无关的数据策划范式。LoMo通过动态选择文本片段并将其转换为渲染图像，创建无缝交织的多模态序列，从而为语义等价的文本和图像载体之间的跨模态表示不变性提供监督。在13个多模态基准上的实验表明，LoMo能显著提升多模态推理能力并实现更深的跨模态融合，在LLaVA-OneVision-1.5-8B和Qwen3.5-9B等基础模型上，相比标准SFT分别取得了2.67分和2.82分的提升。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-29 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.30265)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月29日，HuggingFace Daily Papers收录的论文提出LoMo（局部模态替换）方法，旨在解决视觉语言模型（VLMs）的“载体敏感性”问题。该轻量级、架构无关的数据范式通过将文本片段动态转换为图像，创建多模态序列以增强跨模态表示不变性。在13个多模态基准测试中，该方法在特定基础模型上相比标准SFT取得了显著提升。

答案说明

LoMo是一种针对视觉语言模型的数据策划范式，通过局部替换文本为图像来创建交织序列，从而监督模型学习语义等价的跨模态表示，以解决载体敏感性并提升融合深度。

这篇帖子回答的问题

LoMo方法的核心机制是什么？
LoMo方法在实验中的效果如何？

核心观点

2026年5月29日，HuggingFace Daily Papers收录的论文提出LoMo（局部模态替换）方法，旨在解决视觉语言模型（VLMs）的“载体敏感性”问题。该轻量级、架构无关的数据范式通过将文本片段动态转换为图像，创建多模态序列以增强跨模态表示不变性。在13个多模态基准测试中，该方法在特定基础模型上相比标准SFT取得了显著提升。

FAQ

Q: 什么是视觉语言模型的“载体敏感性”问题？: A: 指在视觉语言模型中，用图像替换语义等价的文本时，模型性能会显著下降的现象。
Q: LoMo方法的主要特点是什么？: A: 它是一种轻量级、架构无关的数据策划范式，通过局部模态替换（将文本片段转换为图像）来创建多模态序列。

关键实体

LoMo
视觉语言模型（VLMs）
LLaVA-OneVision-1.5-8B
Qwen3.5-9B