**提升全能模态语言模型:基于去视觉偏见评估的分阶段后训练方法**

_Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation_

> 本研究针对全能模态语言模型(旨在联合理解音频、视觉和语言)的评估问题。研究发现,现有基准测试中,仅靠视觉证据就能回答的问题会夸大模型性能增益,从而无法准确评估模型对多模态信息的真实整合能力。为解决此问题,研究团队审计了9个全能模态基准测试,剔除视觉上可独立解答的问题,构建了包含8,551个查询的更纯净评估集“OmniClean”。在此基础上,他们提出并评估了“OmniBoost”——一种基于Qwen2.5-Omni-3B的三阶段后训练方法(混合双模态监督微调SFT、混合模态强化学习RLVR、以及基于自蒸馏数据的SFT)。结果表明,最终3B参数模型的性能达到了与更庞大的Qwen3-Omni-30B模型相当甚至略优的水平,且未使用更强的全能模态教师模型。研究证明,在控制视觉信息泄露的评估下,全能模态模型的进步更易解读,而小模型也能通过分阶段后训练与自蒸馏监督获得显著提升。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.12034)