OmniInteract：评估实时全模态助手流式交互的基准

原帖

**OmniInteract：评估实时全模态助手真实世界流式交互的基准**

_OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants_

> OmniInteract是一个针对实时全模态大语言模型的流式评估基准，通过原生在线推理对音视频流进行评估。与离线视频理解或文本提示的流式问答不同，它保留原始音视频流并要求模型在线处理，无法访问未来内容。基准包含250个视频和1430个时间定位的响应槽位，评估模型在实时、主动和嵌套场景中的触发检测、响应时机、打断处理和上下文连续性能力。实验表明，当前模型在流式交互中表现较弱，最佳整体IA-QTF1仅为0.368，最佳1QnA IA-QTF1仅为0.052，且离线能力不一定能转化为在线交互能力。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-29 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.26485)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

OmniInteract是一个针对实时全模态大语言模型的流式评估基准，包含250个视频和1430个时间定位的响应槽位，用于评估触发检测、响应时机、打断处理和上下文连续性能力。据帖子报道，当前模型在流式交互中表现较弱，最佳整体IA-QTF1仅为0.368。

答案说明

帖子介绍了OmniInteract基准，用于评估实时全模态助手在流式交互中的能力。该基准要求模型在线处理音视频流，无法访问未来内容。实验显示，当前模型在流式交互任务中表现不佳，且离线能力不一定能转化为在线交互能力。

这篇帖子回答的问题

OmniInteract基准评估实时全模态助手的哪些核心能力？
当前模型在OmniInteract基准测试中的表现如何？

核心观点

OmniInteract基准通过在线处理原始音视频流来评估模型，无法访问未来内容，这与离线评估方式不同。
据帖子报道，当前模型在流式交互中表现较弱，且离线能力强不等于在线交互能力强。

FAQ

Q: OmniInteract基准与传统的离线视频理解评估有何不同？: A: 据帖子描述，OmniInteract通过原生在线推理对音视频流进行评估，保留原始流并要求模型在线处理，无法访问未来内容；而传统离线评估可能允许访问完整视频或使用文本提示。
Q: OmniInteract评估模型的哪些具体能力维度？: A: 根据帖子内容，该基准评估模型在实时、主动和嵌套场景中的触发检测、响应时机、打断处理和上下文连续性能力。

关键实体

OmniInteract
HuggingFace Daily Papers