**CutVerse:面向媒体后期制作编辑的组合式GUI智能体基准测试**

_CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing_

> 论文介绍了CutVerse基准测试,旨在系统性评估自主GUI智能体在媒体后期制作(如Premiere Pro、Photoshop)中的表现。基准涵盖7款专业应用的186个复杂、长周期任务,基于真实编辑流程和密集多模态界面。研究发现现有智能体在现实媒体编辑任务中成功率仅36%,凸显了复杂长周期工作流的挑战,尽管在空间定位、多模态对齐等方面表现尚可,但在长周期可靠性和领域特定规划上仍有不足。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.19484)