**AI 智能体失败不在智能,而在执行**

_Agents Don't Fail on Intelligence, They Fail on Execution_

> 一项基于720次浏览器智能体运行的基准测试报告指出,AI智能体的主要瓶颈并非推理能力不足,而是执行可靠性问题。测试发现,某些模型高达22.9%的推理调用因输出格式错误(如JSON格式不规范)而浪费,导致任务成功率下降、延迟和成本上升。报告强调,在智能体系统中,可靠性比原始智能更重要,并提出了“智能体执行税”概念来量化这种开销。测试评估了多个模型,并发现执行效率是关键差异化因素。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:ai-models
- **发布时间**:2026-05-21 22:44(北京时间)
- **原文**:[打开原文](https://fireworks.ai/blog/agent-execution-tax)