提升全能模态语言模型：基于去视觉偏见评估的分阶段后训练方法

原帖

**提升全能模态语言模型：基于去视觉偏见评估的分阶段后训练方法**

_Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation_

> 本研究针对全能模态语言模型（旨在联合理解音频、视觉和语言）的评估问题。研究发现，现有基准测试中，仅靠视觉证据就能回答的问题会夸大模型性能增益，从而无法准确评估模型对多模态信息的真实整合能力。为解决此问题，研究团队审计了9个全能模态基准测试，剔除视觉上可独立解答的问题，构建了包含8,551个查询的更纯净评估集“OmniClean”。在此基础上，他们提出并评估了“OmniBoost”——一种基于Qwen2.5-Omni-3B的三阶段后训练方法（混合双模态监督微调SFT、混合模态强化学习RLVR、以及基于自蒸馏数据的SFT）。结果表明，最终3B参数模型的性能达到了与更庞大的Qwen3-Omni-30B模型相当甚至略优的水平，且未使用更强的全能模态教师模型。研究证明，在控制视觉信息泄露的评估下，全能模态模型的进步更易解读，而小模型也能通过分阶段后训练与自蒸馏监督获得显著提升。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-15 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.12034)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了一项研究，该研究针对全能模态语言模型的评估问题，通过审计9个基准测试并构建更纯净的评估集OmniClean，提出了名为OmniBoost的三阶段后训练方法，使3B参数模型的性能达到更庞大模型的水平。

答案说明

该研究发现，现有基准测试中仅靠视觉证据就能回答的问题会夸大模型性能，因此构建了OmniClean评估集，并提出OmniBoost分阶段后训练方法，使小模型（3B参数）性能达到大模型（30B参数）水平。

这篇帖子回答的问题

研究如何改进全能模态语言模型的评估问题？
OmniBoost后训练方法包含哪些阶段？

核心观点

现有全能模态基准测试存在视觉偏见，仅靠视觉证据就能回答的问题会夸大模型性能增益。
通过分阶段后训练方法OmniBoost，3B参数的全能模态模型性能可以达到更庞大的30B参数模型水平。

FAQ

Q: OmniClean评估集是如何构建的？: A: 研究团队审计了9个全能模态基准测试，剔除视觉上可独立解答的问题，构建了包含8,551个查询的更纯净评估集。
Q: OmniBoost后训练方法取得了什么结果？: A: 该方法使基于Qwen2.5-Omni-3B的3B参数模型性能达到了更庞大的Qwen3-Omni-30B模型（30B参数）相当甚至略优的水平，且未使用更强的全能模态教师模型。

关键实体

OmniClean
OmniBoost
Qwen2.5-Omni-3B
Qwen3-Omni-30B

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题