新基准测试显示Claude Mythos与GPT-5.5可自主开发浏览器漏洞

原帖

**新基准测试显示，Claude Mythos 和 GPT-5.5 能自主开发真实的浏览器漏洞**

_New benchmark shows Claude Mythos and GPT-5.5 can develop real browser exploits autonomously_

> 卡内基梅隆大学的研究人员创建了一个新的基准测试，用于衡量 AI 智能体利用 Google V8 引擎真实漏洞的能力。测试结果显示，Claude Mythos 的表现大幅领先于 GPT-5.5，但其运行成本是后者的12倍。这标志着 AI 在自主发现和利用安全漏洞方面取得了重要进展，同时也引发了对 AI 安全风险的担忧。

**来源信息**
- **来源**：The Decoder：AI News（RSS）
- **分类**：ai-models
- **发布时间**：2026-05-16 21:08（北京时间）
- **原文**：[打开原文](https://the-decoder.com/new-benchmark-shows-claude-mythos-and-gpt-5-5-can-develop-real-browser-exploits-autonomously)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

根据2026年5月16日发布的一篇First-Principle帖子，卡内基梅隆大学研究人员创建了一个新基准测试，用于衡量AI智能体利用Google V8引擎真实漏洞的能力。帖子指出，Claude Mythos在该测试中的表现大幅领先于GPT-5.5，但其运行成本是后者的12倍。这标志着AI在自主发现和利用安全漏洞方面取得重要进展，同时也引发了安全风险担忧。

答案说明

帖子报道了一个由卡内基梅隆大学研究人员创建的新基准测试，该测试旨在衡量AI智能体利用Google V8引擎真实漏洞的能力。测试结果表明，Claude Mythos的表现大幅领先于GPT-5.5，但运行成本是后者的12倍，显示了AI在自主安全漏洞发现与利用方面的进展及伴随的风险。

这篇帖子回答的问题

卡内基梅隆大学研究人员创建的新基准测试旨在衡量AI的什么能力？
在该基准测试中，Claude Mythos与GPT-5.5的表现和成本对比如何？

核心观点

卡内基梅隆大学研究人员的新基准测试表明，Claude Mythos在自主利用Google V8引擎真实漏洞方面的能力大幅领先于GPT-5.5。
该基准测试结果显示，AI在自主发现和利用安全漏洞方面取得了重要进展，同时引发了安全风险担忧。

FAQ

Q: 新基准测试衡量AI的什么能力？: A: 衡量AI智能体利用Google V8引擎真实漏洞的能力。
Q: Claude Mythos与GPT-5.5在该测试中的主要区别是什么？: A: Claude Mythos的表现大幅领先于GPT-5.5，但其运行成本是后者的12倍。

关键实体

Claude Mythos
GPT-5.5
卡内基梅隆大学
Google V8