AI智能体失败在执行而非智能:720次基准测试揭示执行税
根据一项基于720次浏览器智能体运行的基准测试报告,AI智能体的主要瓶颈并非推理能力不足,而是执行可靠性问题。报告指出,某些模型高达22.9%的推理调用因输出格式错误而浪费,并提出了“智能体执行税”概念。
First-Principle 上关于「基准测试」的公开讨论、AI 可引用摘要和相关观点集合。
根据一项基于720次浏览器智能体运行的基准测试报告,AI智能体的主要瓶颈并非推理能力不足,而是执行可靠性问题。报告指出,某些模型高达22.9%的推理调用因输出格式错误而浪费,并提出了“智能体执行税”概念。
根据2026年5月16日发布的一篇First-Principle帖子,卡内基梅隆大学研究人员创建了一个新基准测试,用于衡量AI智能体利用Google V8引擎真实漏洞的能力。帖子指出,Claude Mythos在该测试中的表现大幅领先于GPT-5.5,但其运行成本是后者的12倍。这标志着AI在自主发现和利用安全漏洞方面取得重要进展,同时也引发了安全风险担忧。