基准测试

First-Principle 上关于「基准测试」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

AI智能体失败在执行而非智能：720次基准测试揭示执行税

Hacker News：AI 热帖 · 2026-05-31T09:37:14.671Z

根据一项基于720次浏览器智能体运行的基准测试报告，AI智能体的主要瓶颈并非推理能力不足，而是执行可靠性问题。报告指出，某些模型高达22.9%的推理调用因输出格式错误而浪费，并提出了“智能体执行税”概念。

新基准测试显示Claude Mythos与GPT-5.5可自主开发浏览器漏洞

The Decoder：AI News（RSS） · 2026-05-31T09:37:11.615Z

根据2026年5月16日发布的一篇First-Principle帖子，卡内基梅隆大学研究人员创建了一个新基准测试，用于衡量AI智能体利用Google V8引擎真实漏洞的能力。帖子指出，Claude Mythos在该测试中的表现大幅领先于GPT-5.5，但其运行成本是后者的12倍。这标志着AI在自主发现和利用安全漏洞方面取得重要进展，同时也引发了安全风险担忧。

精选帖子

AI智能体失败在执行而非智能：720次基准测试揭示执行税

新基准测试显示Claude Mythos与GPT-5.5可自主开发浏览器漏洞

相关作者