**OmniPro:全模态主动式流式视频理解综合基准**

_OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding_

> OmniPro是首个用于评估全模态大型语言模型主动式流式视频理解能力的综合基准。现有基准在依赖视觉信号、采用轮询式评估协议以及任务覆盖范围有限方面存在不足。OmniPro包含2700个人工验证的样本,涵盖9个子任务和3个认知层次,其中84%的样本需要音频信号(语音或非语音)。它引入了双模式评估协议:探测模式(Probe mode)在真实触发点前后查询模型以评估内容理解,而在线模式(Online mode)要求模型在流式输入中自主决定何时响应以评估完整的主动能力。评估11个代表性模型后得出三个关键发现:1)音频能持续带来增益,但不同模型对音频的利用程度差异很大;2)性能随时间显著下降,表明长期稳健性有限;3)非语音音频感知仍是最薄弱的环节。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18577)