CutVerse：面向媒体后期制作编辑的组合式GUI智能体基准测试

原帖

**CutVerse：面向媒体后期制作编辑的组合式GUI智能体基准测试**

_CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing_

> 论文介绍了CutVerse基准测试，旨在系统性评估自主GUI智能体在媒体后期制作（如Premiere Pro、Photoshop）中的表现。基准涵盖7款专业应用的186个复杂、长周期任务，基于真实编辑流程和密集多模态界面。研究发现现有智能体在现实媒体编辑任务中成功率仅36%，凸显了复杂长周期工作流的挑战，尽管在空间定位、多模态对齐等方面表现尚可，但在长周期可靠性和领域特定规划上仍有不足。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-21 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.19484)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

论文介绍了CutVerse基准测试，旨在系统性评估自主GUI智能体在媒体后期制作（如Premiere Pro、Photoshop）中的表现。基准涵盖7款专业应用的186个复杂、长周期任务。研究发现现有智能体在现实媒体编辑任务中成功率仅36%。

答案说明

CutVerse是一个用于评估媒体后期制作场景下GUI智能体性能的基准测试，包含186个任务，当前智能体在现实任务中的成功率仅为36%，表明在长周期可靠性和领域特定规划方面存在显著挑战。

这篇帖子回答的问题

CutVerse基准测试评估的是什么能力？
现有GUI智能体在媒体后期制作任务中的成功率是多少？

核心观点

论文指出，现有GUI智能体在媒体后期制作的复杂长周期任务中成功率仅为36%，表明该领域存在重大挑战。
论文称，智能体在空间定位、多模态对齐等方面表现尚可，但在长周期可靠性和领域特定规划上仍有不足。

FAQ

Q: CutVerse基准测试包含多少个任务？: A: 论文指出，CutVerse基准测试涵盖186个复杂、长周期任务。
Q: 现有GUI智能体在媒体编辑任务上的主要不足是什么？: A: 根据论文内容，尽管在空间定位、多模态对齐等方面表现尚可，但在长周期可靠性和领域特定规划上仍有不足。

关键实体

CutVerse
Premiere Pro
Photoshop
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题