AI视频评估

Artifact-Bench：评估多模态大语言模型检测与评估AI生成视频瑕疵的能力

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:18.169Z

该论文介绍了Artifact-Bench基准，用于评估多模态大语言模型在检测和分析AI生成视频瑕疵方面的能力。研究建立了涵盖写实、动画和CG风格视频的三级层次化瑕疵分类法，并设计了三个互补任务。实验评估了19个领先的MLLM，发现许多模型在瑕疵感知和推理方面存在显著局限，性能接近或低于随机水平，且其判断与人类感知偏好存在明显不一致。

精选帖子

Artifact-Bench：评估多模态大语言模型检测与评估AI生成视频瑕疵的能力

相关作者