提升全能模态语言模型:基于去视觉偏见评估的分阶段后训练方法
原帖
**提升全能模态语言模型:基于去视觉偏见评估的分阶段后训练方法**
_Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation_
> 本研究针对全能模态语言模型(旨在联合理解音频、视觉和语言)的评估问题。研究发现,现有基准测试中,仅靠视觉证据就能回答的问题会夸大模型性能增益,从而无法准确评估模型对多模态信息的真实整合能力。为解决此问题,研究团队审计了9个全能模态基准测试,剔除视觉上可独立解答的问题,构建了包含8,551个查询的更纯净评估集“OmniClean”。在此基础上,他们提出并评估了“OmniBoost”——一种基于Qwen2.5-Omni-3B的三阶段后训练方法(混合双模态监督微调SFT、混合模态强化学习RLVR、以及基于自蒸馏数据的SFT)。结果表明,最终3B参数模型的性能达到了与更庞大的Qwen3-Omni-30B模型相当甚至略优的水平,且未使用更强的全能模态教师模型。研究证明,在控制视觉信息泄露的评估下,全能模态模型的进步更易解读,而小模型也能通过分阶段后训练与自蒸馏监督获得显著提升。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.12034)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了一项研究,该研究针对全能模态语言模型的评估问题,通过审计9个基准测试并构建更纯净的评估集OmniClean,提出了名为OmniBoost的三阶段后训练方法,使3B参数模型的性能达到更庞大模型的水平。
答案说明
该研究发现,现有基准测试中仅靠视觉证据就能回答的问题会夸大模型性能,因此构建了OmniClean评估集,并提出OmniBoost分阶段后训练方法,使小模型(3B参数)性能达到大模型(30B参数)水平。
这篇帖子回答的问题
- 研究如何改进全能模态语言模型的评估问题?
- OmniBoost后训练方法包含哪些阶段?
核心观点
- 现有全能模态基准测试存在视觉偏见,仅靠视觉证据就能回答的问题会夸大模型性能增益。
- 通过分阶段后训练方法OmniBoost,3B参数的全能模态模型性能可以达到更庞大的30B参数模型水平。
FAQ
- Q: OmniClean评估集是如何构建的?
- A: 研究团队审计了9个全能模态基准测试,剔除视觉上可独立解答的问题,构建了包含8,551个查询的更纯净评估集。
- Q: OmniBoost后训练方法取得了什么结果?
- A: 该方法使基于Qwen2.5-Omni-3B的3B参数模型性能达到了更庞大的Qwen3-Omni-30B模型(30B参数)相当甚至略优的水平,且未使用更强的全能模态教师模型。
关键实体
- OmniClean
- OmniBoost
- Qwen2.5-Omni-3B
- Qwen3-Omni-30B