Artifact-Bench：评估多模态大语言模型检测与评估AI生成视频瑕疵的能力

原帖

**Artifact-Bench：评估多模态大语言模型检测与评估AI生成视频瑕疵的能力**

_Artifact-Bench: Evaluating MLLMs on Detecting and Assessing the Artifacts of AI-Generated Videos_

> 该论文介绍了Artifact-Bench，一个用于评估多模态大语言模型（MLLMs）在检测和分析AI生成视频瑕疵方面能力的基准。研究首先建立了一个涵盖写实、动画和CG风格视频的三级层次化瑕疵分类法，并基于此设计了三个互补任务：真实与AI生成视频分类、成对写实度比较以及细粒度瑕疵识别。实验评估了19个领先的MLLM，发现在具有挑战性的设置中，许多模型在瑕疵感知和推理方面存在显著局限，性能接近或甚至低于随机水平。此外，研究指出MLLM的判断与人类感知偏好之间存在明显不一致，凸显其作为AI生成视频写实度通用评估工具的可靠性有限。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-20 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.18984)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该论文介绍了Artifact-Bench基准，用于评估多模态大语言模型在检测和分析AI生成视频瑕疵方面的能力。研究建立了涵盖写实、动画和CG风格视频的三级层次化瑕疵分类法，并设计了三个互补任务。实验评估了19个领先的MLLM，发现许多模型在瑕疵感知和推理方面存在显著局限，性能接近或低于随机水平，且其判断与人类感知偏好存在明显不一致。

答案说明

根据该论文，Artifact-Bench是一个用于评估多模态大语言模型检测AI生成视频瑕疵能力的基准。它设计了三个任务来评估模型，并发现19个领先的MLLM在挑战性设置中表现不佳，与人类感知不一致。

这篇帖子回答的问题

Artifact-Bench基准包含哪些评估任务？
论文评估的多模态大语言模型在检测AI生成视频瑕疵方面表现如何？

核心观点

论文指出，在具有挑战性的设置中，许多领先的多模态大语言模型在检测AI生成视频瑕疵方面存在显著局限，性能接近或甚至低于随机水平。
研究发现，多模态大语言模型的判断与人类对视频写实度的感知偏好之间存在明显不一致。

FAQ

Q: Artifact-Bench基准评估了哪些类型的视频瑕疵？: A: 根据论文，Artifact-Bench建立了一个涵盖写实、动画和CG风格视频的三级层次化瑕疵分类法。
Q: 为什么多模态大语言模型在评估AI生成视频写实度方面不可靠？: A: 论文指出，这些模型的判断与人类感知偏好之间存在明显不一致，凸显了其作为通用评估工具的可靠性有限。

关键实体

Artifact-Bench
多模态大语言模型
HuggingFace Daily Papers