OmniPro：评估全模态模型流式视频理解能力的首个综合基准

原帖

**OmniPro：全模态主动式流式视频理解综合基准**

_OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding_

> OmniPro是首个用于评估全模态大型语言模型主动式流式视频理解能力的综合基准。现有基准在依赖视觉信号、采用轮询式评估协议以及任务覆盖范围有限方面存在不足。OmniPro包含2700个人工验证的样本，涵盖9个子任务和3个认知层次，其中84%的样本需要音频信号（语音或非语音）。它引入了双模式评估协议：探测模式（Probe mode）在真实触发点前后查询模型以评估内容理解，而在线模式（Online mode）要求模型在流式输入中自主决定何时响应以评估完整的主动能力。评估11个代表性模型后得出三个关键发现：1）音频能持续带来增益，但不同模型对音频的利用程度差异很大；2）性能随时间显著下降，表明长期稳健性有限；3）非语音音频感知仍是最薄弱的环节。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-22 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.18577)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

First-Principle于2026年5月22日分享了关于OmniPro基准的论文。该基准针对现有评估方法的不足，包含2700个样本、9个子任务，引入了探测和在线两种评估模式。评估11个模型后发现，音频增益效果因模型而异，性能随时间下降，且非语音音频感知能力最弱。

答案说明

OmniPro是首个用于评估全模态大型语言模型在主动式流式视频理解方面能力的综合基准。它旨在解决现有基准在评估协议和任务覆盖上的局限，并提供了对主流模型音频利用能力和长期稳健性的具体发现。

这篇帖子回答的问题

OmniPro基准如何评估模型的主动式流式视频理解能力？
评估OmniPro基准揭示了关于多模态模型的哪些关键发现？

核心观点

OmniPro基准发现，在流式视频理解任务中，音频信号的利用程度因模型而异，且当前模型普遍缺乏对非语音音频（如环境音）的有效感知能力。
该研究指出，现有全模态模型在长时间流式处理视频时，性能会显著下降，这表明其长期稳健性有待提高。

FAQ

Q: OmniPro基准与现有基准有何不同？: A: 据论文描述，OmniPro旨在解决现有基准在依赖视觉信号、采用轮询式评估协议以及任务覆盖范围有限方面的不足。它引入了双模式评估协议，并大量使用音频信号。
Q: 论文评估了哪些模型？: A: 该论文评估了11个代表性模型，但具体模型名称未在所提供的帖子内容中列出。

关键实体

OmniPro
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题