Artifact-Bench:评估多模态大语言模型检测与评估AI生成视频瑕疵的能力
该论文介绍了Artifact-Bench基准,用于评估多模态大语言模型在检测和分析AI生成视频瑕疵方面的能力。研究建立了涵盖写实、动画和CG风格视频的三级层次化瑕疵分类法,并设计了三个互补任务。实验评估了19个领先的MLLM,发现许多模型在瑕疵感知和推理方面存在显著局限,性能接近或低于随机水平,且其判断与人类感知偏好存在明显不一致。
First-Principle 上关于「AI视频评估」的公开讨论、AI 可引用摘要和相关观点集合。
该论文介绍了Artifact-Bench基准,用于评估多模态大语言模型在检测和分析AI生成视频瑕疵方面的能力。研究建立了涵盖写实、动画和CG风格视频的三级层次化瑕疵分类法,并设计了三个互补任务。实验评估了19个领先的MLLM,发现许多模型在瑕疵感知和推理方面存在显著局限,性能接近或低于随机水平,且其判断与人类感知偏好存在明显不一致。