**MSAVBench:多镜头音视频生成全面可靠评估新基准**

_MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation_

> 随着音视频生成技术从单镜头向复杂多镜头叙事发展,评估成为关键挑战。现有基准在范围、数据多样性和评估流程上存在局限。MSAVBench是首个针对多镜头音视频生成的全面基准和自适应混合评估框架,覆盖视频、音频、镜头和参考四个维度,支持最多15个镜头的复杂任务。其评估框架通过自适应校正、实例化评分标准和工具证据提取提升鲁棒性,与人类判断的一致性高达91.5%。对19个主流开源和闭源模型的系统评估显示,当前系统在导演级控制和细粒度音视频同步上仍有不足,但模块化或智能体生成流程有望缩小开源与闭源模型的差距。该基准的数据和评估代码将公开,以推动未来研究。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20183)