**Omni-DuplexEval:评估实时双工全模态交互能力**

_Omni-DuplexEval: Evaluating Real-time Duplex Omni-modal Interaction_

> 该论文针对实时双工全模态交互评估的空白,提出了一个名为Omni-DuplexEval的新基准。该基准包含实时描述和主动提醒两个互补场景,涵盖9个真实世界任务、660个带有人工标注的视频。研究还引入了基于大语言模型的自动评估框架,该框架能结合时间戳和序列推理,评估响应的内容对齐性和时机。实验表明,当前最先进的模型在此基准上表现不佳,最佳模型整体得分仅39.6%,在主动提醒任务上得分仅20.0%,揭示了模型在平衡及时响应与内容生成方面的核心挑战。这项工作旨在推动多模态大语言模型在实时交互能力上的进步。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.17360)