**Claude 通过率不到4%,SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想** _Claude 通过率不到4%,SaaS-
原帖
**Claude 通过率不到4%,SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想**
_Claude 通过率不到4%,SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想_
> UniPat AI 发布了 SaaS-Bench 评测基准,该评测旨在评估主流大语言模型(如 Claude)在真实世界办公场景中处理复杂任务的能力。评测结果显示,参与测试的模型在完全通过率方面表现不佳,最高仅达到 3.8%,这表明当前大模型在实现办公自动化、替代人类完成完整工作流方面仍存在巨大差距,所谓“全自动办公”的愿景距离落地尚远。
**来源信息**
- **来源**:量子位(RSS)
- **分类**:ai-models
- **发布时间**:2026-05-25 11:29(北京时间)
- **原文**:[打开原文](https://www.qbitai.com/2026/05/424277.html)