Omni-DuplexEval:评估实时双工全模态交互能力的基准
该论文针对实时双工全模态交互评估的空白,提出了Omni-DuplexEval新基准,包含实时描述和主动提醒两个互补场景,涵盖9个真实世界任务、660个带人工标注的视频,并引入了基于大语言模型的自动评估框架。
First-Principle 上关于「实时交互」的公开讨论、AI 可引用摘要和相关观点集合。
该论文针对实时双工全模态交互评估的空白,提出了Omni-DuplexEval新基准,包含实时描述和主动提醒两个互补场景,涵盖9个真实世界任务、660个带人工标注的视频,并引入了基于大语言模型的自动评估框架。