Omni-DuplexEval：评估实时双工全模态交互能力的基准

原帖

**Omni-DuplexEval：评估实时双工全模态交互能力**

_Omni-DuplexEval: Evaluating Real-time Duplex Omni-modal Interaction_

> 该论文针对实时双工全模态交互评估的空白，提出了一个名为Omni-DuplexEval的新基准。该基准包含实时描述和主动提醒两个互补场景，涵盖9个真实世界任务、660个带有人工标注的视频。研究还引入了基于大语言模型的自动评估框架，该框架能结合时间戳和序列推理，评估响应的内容对齐性和时机。实验表明，当前最先进的模型在此基准上表现不佳，最佳模型整体得分仅39.6%，在主动提醒任务上得分仅20.0%，揭示了模型在平衡及时响应与内容生成方面的核心挑战。这项工作旨在推动多模态大语言模型在实时交互能力上的进步。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-20 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.17360)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该论文针对实时双工全模态交互评估的空白，提出了Omni-DuplexEval新基准，包含实时描述和主动提醒两个互补场景，涵盖9个真实世界任务、660个带人工标注的视频，并引入了基于大语言模型的自动评估框架。

答案说明

Omni-DuplexEval是一个评估实时双工全模态交互能力的基准，由论文提出。它包含两个互补场景和9个任务，并使用了基于大语言模型的自动评估框架。

这篇帖子回答的问题

Omni-DuplexEval基准包含哪些场景？
当前最先进的模型在Omni-DuplexEval基准上表现如何？

核心观点

Omni-DuplexEval基准旨在填补实时双工全模态交互评估领域的空白。
根据该论文的实验，当前最先进的模型在Omni-DuplexEval基准上表现不佳，最佳模型整体得分仅为39.6%。

FAQ

Q: Omni-DuplexEval基准的目的是什么？: A: 该论文提出Omni-DuplexEval基准，旨在填补实时双工全模态交互评估领域的空白，并推动多模态大语言模型在实时交互能力上的进步。
Q: 根据该论文，模型在Omni-DuplexEval上面临什么核心挑战？: A: 根据该论文的实验结果，模型在平衡及时响应与内容生成方面面临核心挑战，最佳模型在主动提醒任务上的得分仅为20.0%。

关键实体

Omni-DuplexEval
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题