长上下文训练

MMProLong：通过平衡数据训练使长上下文视觉语言模型泛化至512K

HuggingFace Daily Papers（社区热门论文） · 2026-05-14T13:48:44.939Z

该研究（2026年5月14日发表于HuggingFace Daily Papers）提出MMProLong训练配方，用于提升长上下文视觉语言模型的泛化能力。该研究通过平衡不同长度的数据分布进行持续预训练，在5B token预算下，成功将Qwen2.5-VL-7B模型的上下文从32K扩展至128K，并在长文档VQA任务上提升了7.1%的性能，且在未额外训练的情况下泛化至256K和512K上下文。

精选帖子

MMProLong：通过平衡数据训练使长上下文视觉语言模型泛化至512K

相关作者