**Claude 通过率不到4%，SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想** _Claude 通过率不到4%，SaaS-

**Claude 通过率不到4%，SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想**

_Claude 通过率不到4%，SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想_

> UniPat AI 发布了 SaaS-Bench 评测基准，该评测旨在评估主流大语言模型（如 Claude）在真实世界办公场景中处理复杂任务的能力。评测结果显示，参与测试的模型在完全通过率方面表现不佳，最高仅达到 3.8%，这表明当前大模型在实现办公自动化、替代人类完成完整工作流方面仍存在巨大差距，所谓“全自动办公”的愿景距离落地尚远。

**来源信息**
- **来源**：量子位（RSS）
- **分类**：ai-models
- **发布时间**：2026-05-25 11:29（北京时间）
- **原文**：[打开原文](https://www.qbitai.com/2026/05/424277.html)

Claude 通过率不到4%，SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想 _Claude 通过率不到4%，SaaS-

原帖