**首个测试AI智能体视频编辑能力的基准测试发布**

_The first benchmark to test AI agent's video editing capability_

> Philo Labs Research 于2026年5月发布了 AgenticVBench,这是首个专门用于评估AI智能体在视频后期制作中能力的基准测试。测试包含100个由行业专家设计的任务,涵盖组装、修复、排序和再创作四个阶段。结果显示,表现最佳的前沿AI智能体(如GPT-5.5)平均得分仅为31%,而人类专家得分高达89%,在再创作任务中差距最大(AI 30% vs 人类95%)。研究还发现,智能体的性能不仅取决于模型本身,还严重依赖所使用的工具链(harness),例如同一模型在不同工具链下组装任务得分可相差20个百分点。该基准旨在为创意工作领域的AI能力评估提供更真实的衡量标准。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:论文
- **发布时间**:2026-05-24 01:12(北京时间)
- **原文**:[打开原文](https://agenticvbench.com/)