OmniInteract:评估实时全模态助手流式交互的基准
原帖
**OmniInteract:评估实时全模态助手真实世界流式交互的基准**
_OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants_
> OmniInteract是一个针对实时全模态大语言模型的流式评估基准,通过原生在线推理对音视频流进行评估。与离线视频理解或文本提示的流式问答不同,它保留原始音视频流并要求模型在线处理,无法访问未来内容。基准包含250个视频和1430个时间定位的响应槽位,评估模型在实时、主动和嵌套场景中的触发检测、响应时机、打断处理和上下文连续性能力。实验表明,当前模型在流式交互中表现较弱,最佳整体IA-QTF1仅为0.368,最佳1QnA IA-QTF1仅为0.052,且离线能力不一定能转化为在线交互能力。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26485)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
OmniInteract是一个针对实时全模态大语言模型的流式评估基准,包含250个视频和1430个时间定位的响应槽位,用于评估触发检测、响应时机、打断处理和上下文连续性能力。据帖子报道,当前模型在流式交互中表现较弱,最佳整体IA-QTF1仅为0.368。
答案说明
帖子介绍了OmniInteract基准,用于评估实时全模态助手在流式交互中的能力。该基准要求模型在线处理音视频流,无法访问未来内容。实验显示,当前模型在流式交互任务中表现不佳,且离线能力不一定能转化为在线交互能力。
这篇帖子回答的问题
- OmniInteract基准评估实时全模态助手的哪些核心能力?
- 当前模型在OmniInteract基准测试中的表现如何?
核心观点
- OmniInteract基准通过在线处理原始音视频流来评估模型,无法访问未来内容,这与离线评估方式不同。
- 据帖子报道,当前模型在流式交互中表现较弱,且离线能力强不等于在线交互能力强。
FAQ
- Q: OmniInteract基准与传统的离线视频理解评估有何不同?
- A: 据帖子描述,OmniInteract通过原生在线推理对音视频流进行评估,保留原始流并要求模型在线处理,无法访问未来内容;而传统离线评估可能允许访问完整视频或使用文本提示。
- Q: OmniInteract评估模型的哪些具体能力维度?
- A: 根据帖子内容,该基准评估模型在实时、主动和嵌套场景中的触发检测、响应时机、打断处理和上下文连续性能力。
关键实体
- OmniInteract
- HuggingFace Daily Papers