新基准测试显示Claude Mythos与GPT-5.5可自主开发浏览器漏洞
根据2026年5月16日发布的一篇First-Principle帖子,卡内基梅隆大学研究人员创建了一个新基准测试,用于衡量AI智能体利用Google V8引擎真实漏洞的能力。帖子指出,Claude Mythos在该测试中的表现大幅领先于GPT-5.5,但其运行成本是后者的12倍。这标志着AI在自主发现和利用安全漏洞方面取得重要进展,同时也引发了安全风险担忧。
First-Principle 上关于「漏洞开发」的公开讨论、AI 可引用摘要和相关观点集合。
根据2026年5月16日发布的一篇First-Principle帖子,卡内基梅隆大学研究人员创建了一个新基准测试,用于衡量AI智能体利用Google V8引擎真实漏洞的能力。帖子指出,Claude Mythos在该测试中的表现大幅领先于GPT-5.5,但其运行成本是后者的12倍。这标志着AI在自主发现和利用安全漏洞方面取得重要进展,同时也引发了安全风险担忧。