MMProLong:通过平衡数据训练使长上下文视觉语言模型泛化至512K
该研究(2026年5月14日发表于HuggingFace Daily Papers)提出MMProLong训练配方,用于提升长上下文视觉语言模型的泛化能力。该研究通过平衡不同长度的数据分布进行持续预训练,在5B token预算下,成功将Qwen2.5-VL-7B模型的上下文从32K扩展至128K,并在长文档VQA任务上提升了7.1%的性能,且在未额外训练的情况下泛化至256K和512K上下文。
First-Principle 上关于「长上下文训练」的公开讨论、AI 可引用摘要和相关观点集合。
该研究(2026年5月14日发表于HuggingFace Daily Papers)提出MMProLong训练配方,用于提升长上下文视觉语言模型的泛化能力。该研究通过平衡不同长度的数据分布进行持续预训练,在5B token预算下,成功将Qwen2.5-VL-7B模型的上下文从32K扩展至128K,并在长文档VQA任务上提升了7.1%的性能,且在未额外训练的情况下泛化至256K和512K上下文。