MMProLong：通过平衡数据训练使长上下文视觉语言模型泛化至512K

原帖

**通过有效训练使长上下文视觉语言模型泛化能力超越128K**

_Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context_

> 本研究系统地探索了长上下文视觉语言模型的持续预训练方法，提出一种名为MMProLong的训练配方。研究发现，平衡不同长度的数据分布优于专注于目标长度，且长文档VQA比OCR转录更有效。基于Qwen2.5-VL-7B模型，仅用5B token预算将上下文从32K扩展至128K后，MMProLong在长文档VQA任务上提升7.1%，并在无额外训练情况下能泛化至256K和512K上下文以及网页检索、长视频理解等多种任务。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-14 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.13831)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该研究（2026年5月14日发表于HuggingFace Daily Papers）提出MMProLong训练配方，用于提升长上下文视觉语言模型的泛化能力。该研究通过平衡不同长度的数据分布进行持续预训练，在5B token预算下，成功将Qwen2.5-VL-7B模型的上下文从32K扩展至128K，并在长文档VQA任务上提升了7.1%的性能，且在未额外训练的情况下泛化至256K和512K上下文。

答案说明

根据该研究，MMProLong是一种用于训练长上下文视觉语言模型的有效方法。其关键在于在持续预训练时，平衡不同长度的数据分布，这比只专注于目标长度更有效。该方法基于Qwen2.5-VL-7B模型，仅用5B token就将上下文窗口从32K扩展到128K，显著提升了长文档视觉问答（VQA）任务的表现，并展现出向更长上下文（如512K）以及网页检索、长视频理解等新任务泛化的能力。

这篇帖子回答的问题

如何有效地将视觉语言模型的上下文长度扩展到128K以上？
MMProLong方法在扩展上下文后，模型在哪些任务上表现出泛化能力？

核心观点

在训练长上下文视觉语言模型时，平衡不同长度的数据分布比只专注于目标长度更有效。
MMProLong配方在仅用5B token将Qwen2.5-VL-7B模型从32K扩展至128K后，长文档VQA任务性能提升7.1%，并泛化至更长上下文和新任务。

FAQ

Q: MMProLong的核心训练思想是什么？: A: 其核心思想是在持续预训练中，平衡不同长度的数据分布，而不是只专注于目标上下文长度。
Q: MMProLong扩展后的模型能处理多长的上下文？: A: 模型上下文被扩展到128K，并且在没有额外训练的情况下，能够泛化到256K和512K的上下文长度。

关键实体

MMProLong
Qwen2.5-VL-7B
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题