Omni-DuplexEval:评估实时双工全模态交互能力的基准
原帖
**Omni-DuplexEval:评估实时双工全模态交互能力**
_Omni-DuplexEval: Evaluating Real-time Duplex Omni-modal Interaction_
> 该论文针对实时双工全模态交互评估的空白,提出了一个名为Omni-DuplexEval的新基准。该基准包含实时描述和主动提醒两个互补场景,涵盖9个真实世界任务、660个带有人工标注的视频。研究还引入了基于大语言模型的自动评估框架,该框架能结合时间戳和序列推理,评估响应的内容对齐性和时机。实验表明,当前最先进的模型在此基准上表现不佳,最佳模型整体得分仅39.6%,在主动提醒任务上得分仅20.0%,揭示了模型在平衡及时响应与内容生成方面的核心挑战。这项工作旨在推动多模态大语言模型在实时交互能力上的进步。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.17360)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
该论文针对实时双工全模态交互评估的空白,提出了Omni-DuplexEval新基准,包含实时描述和主动提醒两个互补场景,涵盖9个真实世界任务、660个带人工标注的视频,并引入了基于大语言模型的自动评估框架。
答案说明
Omni-DuplexEval是一个评估实时双工全模态交互能力的基准,由论文提出。它包含两个互补场景和9个任务,并使用了基于大语言模型的自动评估框架。
这篇帖子回答的问题
- Omni-DuplexEval基准包含哪些场景?
- 当前最先进的模型在Omni-DuplexEval基准上表现如何?
核心观点
- Omni-DuplexEval基准旨在填补实时双工全模态交互评估领域的空白。
- 根据该论文的实验,当前最先进的模型在Omni-DuplexEval基准上表现不佳,最佳模型整体得分仅为39.6%。
FAQ
- Q: Omni-DuplexEval基准的目的是什么?
- A: 该论文提出Omni-DuplexEval基准,旨在填补实时双工全模态交互评估领域的空白,并推动多模态大语言模型在实时交互能力上的进步。
- Q: 根据该论文,模型在Omni-DuplexEval上面临什么核心挑战?
- A: 根据该论文的实验结果,模型在平衡及时响应与内容生成方面面临核心挑战,最佳模型在主动提醒任务上的得分仅为20.0%。
关键实体
- Omni-DuplexEval
- HuggingFace Daily Papers