**OmniInteract:评估实时全模态助手真实世界流式交互的基准**

_OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants_

> OmniInteract是一个针对实时全模态大语言模型的流式评估基准,通过原生在线推理对音视频流进行评估。与离线视频理解或文本提示的流式问答不同,它保留原始音视频流并要求模型在线处理,无法访问未来内容。基准包含250个视频和1430个时间定位的响应槽位,评估模型在实时、主动和嵌套场景中的触发检测、响应时机、打断处理和上下文连续性能力。实验表明,当前模型在流式交互中表现较弱,最佳整体IA-QTF1仅为0.368,最佳1QnA IA-QTF1仅为0.052,且离线能力不一定能转化为在线交互能力。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26485)