**Claude通过率不足4%，SaaS-Bench揭示计算机使用型AI在自动化办公中的局限性** _Claude 通过率不到 4%，SaaS-Bench 撕

**Claude通过率不足4%，SaaS-Bench揭示计算机使用型AI在自动化办公中的局限性**

_Claude 通过率不到 4%，SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想_

> 文章通过SaaS-Bench基准测试指出，即使是先进的AI Agent（如Claude）在处理日常办公任务（如更新项目状态、整理账单）时通过率极低（不到4%），挑战了“全自动办公”的乐观预期。测试强调AI需理解业务目标、跨应用操作等复杂能力，目前仍存在显著差距。

**来源信息**
- **来源**：机器之心：文章库（API）
- **分类**：ai-products
- **发布时间**：2026-05-25 10:39（北京时间）
- **原文**：[打开原文](https://www.jiqizhixin.com/articles/2026-05-25-2)

Claude通过率不足4%，SaaS-Bench揭示计算机使用型AI在自动化办公中的局限性 _Claude 通过率不到 4%，SaaS-Bench 撕

原帖