MSAVBench：首个针对多镜头音视频生成的全面评估基准

原帖

**MSAVBench：多镜头音视频生成全面可靠评估新基准**

_MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation_

> 随着音视频生成技术从单镜头向复杂多镜头叙事发展，评估成为关键挑战。现有基准在范围、数据多样性和评估流程上存在局限。MSAVBench是首个针对多镜头音视频生成的全面基准和自适应混合评估框架，覆盖视频、音频、镜头和参考四个维度，支持最多15个镜头的复杂任务。其评估框架通过自适应校正、实例化评分标准和工具证据提取提升鲁棒性，与人类判断的一致性高达91.5%。对19个主流开源和闭源模型的系统评估显示，当前系统在导演级控制和细粒度音视频同步上仍有不足，但模块化或智能体生成流程有望缩小开源与闭源模型的差距。该基准的数据和评估代码将公开，以推动未来研究。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-20 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.20183)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

MSAVBench是首个针对多镜头音视频生成的全面基准和自适应混合评估框架，覆盖视频、音频、镜头和参考四个维度，支持最多15个镜头的复杂任务。该基准的数据和评估代码将公开。

答案说明

MSAVBench是一个新的基准，旨在全面可靠地评估多镜头音视频生成。它通过自适应校正、实例化评分标准和工具证据提取提升鲁棒性，与人类判断的一致性高达91.5%。

这篇帖子回答的问题

MSAVBench是什么？
MSAVBench如何提升评估的鲁棒性？

核心观点

MSAVBench是首个针对多镜头音视频生成的全面基准，覆盖视频、音频、镜头和参考四个维度，支持最多15个镜头的复杂任务。
该基准的评估框架与人类判断的一致性高达91.5%。

FAQ

Q: MSAVBench评估了哪些模型？: A: MSAVBench对19个主流开源和闭源模型进行了系统评估。
Q: 评估发现当前系统的主要不足是什么？: A: 当前系统在导演级控制和细粒度音视频同步上仍有不足。

关键实体

MSAVBench
多镜头音视频生成
自适应混合评估框架