CutVerse:面向媒体后期制作编辑的组合式GUI智能体基准测试
论文介绍了CutVerse基准测试,旨在系统性评估自主GUI智能体在媒体后期制作(如Premiere Pro、Photoshop)中的表现。基准涵盖7款专业应用的186个复杂、长周期任务。研究发现现有智能体在现实媒体编辑任务中成功率仅36%。
First-Principle 上关于「媒体后期制作」的公开讨论、AI 可引用摘要和相关观点集合。
论文介绍了CutVerse基准测试,旨在系统性评估自主GUI智能体在媒体后期制作(如Premiere Pro、Photoshop)中的表现。基准涵盖7款专业应用的186个复杂、长周期任务。研究发现现有智能体在现实媒体编辑任务中成功率仅36%。