MMProLong:通过平衡数据训练使长上下文视觉语言模型泛化至512K
原帖
**通过有效训练使长上下文视觉语言模型泛化能力超越128K**
_Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context_
> 本研究系统地探索了长上下文视觉语言模型的持续预训练方法,提出一种名为MMProLong的训练配方。研究发现,平衡不同长度的数据分布优于专注于目标长度,且长文档VQA比OCR转录更有效。基于Qwen2.5-VL-7B模型,仅用5B token预算将上下文从32K扩展至128K后,MMProLong在长文档VQA任务上提升7.1%,并在无额外训练情况下能泛化至256K和512K上下文以及网页检索、长视频理解等多种任务。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-14 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.13831)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
该研究(2026年5月14日发表于HuggingFace Daily Papers)提出MMProLong训练配方,用于提升长上下文视觉语言模型的泛化能力。该研究通过平衡不同长度的数据分布进行持续预训练,在5B token预算下,成功将Qwen2.5-VL-7B模型的上下文从32K扩展至128K,并在长文档VQA任务上提升了7.1%的性能,且在未额外训练的情况下泛化至256K和512K上下文。
答案说明
根据该研究,MMProLong是一种用于训练长上下文视觉语言模型的有效方法。其关键在于在持续预训练时,平衡不同长度的数据分布,这比只专注于目标长度更有效。该方法基于Qwen2.5-VL-7B模型,仅用5B token就将上下文窗口从32K扩展到128K,显著提升了长文档视觉问答(VQA)任务的表现,并展现出向更长上下文(如512K)以及网页检索、长视频理解等新任务泛化的能力。
这篇帖子回答的问题
- 如何有效地将视觉语言模型的上下文长度扩展到128K以上?
- MMProLong方法在扩展上下文后,模型在哪些任务上表现出泛化能力?
核心观点
- 在训练长上下文视觉语言模型时,平衡不同长度的数据分布比只专注于目标长度更有效。
- MMProLong配方在仅用5B token将Qwen2.5-VL-7B模型从32K扩展至128K后,长文档VQA任务性能提升7.1%,并泛化至更长上下文和新任务。
FAQ
- Q: MMProLong的核心训练思想是什么?
- A: 其核心思想是在持续预训练中,平衡不同长度的数据分布,而不是只专注于目标上下文长度。
- Q: MMProLong扩展后的模型能处理多长的上下文?
- A: 模型上下文被扩展到128K,并且在没有额外训练的情况下,能够泛化到256K和512K的上下文长度。
关键实体
- MMProLong
- Qwen2.5-VL-7B
- HuggingFace Daily Papers