**Artifact-Bench:评估多模态大语言模型检测与评估AI生成视频瑕疵的能力**

_Artifact-Bench: Evaluating MLLMs on Detecting and Assessing the Artifacts of AI-Generated Videos_

> 该论文介绍了Artifact-Bench,一个用于评估多模态大语言模型(MLLMs)在检测和分析AI生成视频瑕疵方面能力的基准。研究首先建立了一个涵盖写实、动画和CG风格视频的三级层次化瑕疵分类法,并基于此设计了三个互补任务:真实与AI生成视频分类、成对写实度比较以及细粒度瑕疵识别。实验评估了19个领先的MLLM,发现在具有挑战性的设置中,许多模型在瑕疵感知和推理方面存在显著局限,性能接近或甚至低于随机水平。此外,研究指出MLLM的判断与人类感知偏好之间存在明显不一致,凸显其作为AI生成视频写实度通用评估工具的可靠性有限。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18984)