**通过有效训练使长上下文视觉语言模型泛化能力超越128K**

_Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context_

> 本研究系统地探索了长上下文视觉语言模型的持续预训练方法,提出一种名为MMProLong的训练配方。研究发现,平衡不同长度的数据分布优于专注于目标长度,且长文档VQA比OCR转录更有效。基于Qwen2.5-VL-7B模型,仅用5B token预算将上下文从32K扩展至128K后,MMProLong在长文档VQA任务上提升7.1%,并在无额外训练情况下能泛化至256K和512K上下文以及网页检索、长视频理解等多种任务。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-14 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.13831)