新基准测试显示Claude Mythos与GPT-5.5可自主开发浏览器漏洞
原帖
**新基准测试显示,Claude Mythos 和 GPT-5.5 能自主开发真实的浏览器漏洞**
_New benchmark shows Claude Mythos and GPT-5.5 can develop real browser exploits autonomously_
> 卡内基梅隆大学的研究人员创建了一个新的基准测试,用于衡量 AI 智能体利用 Google V8 引擎真实漏洞的能力。测试结果显示,Claude Mythos 的表现大幅领先于 GPT-5.5,但其运行成本是后者的12倍。这标志着 AI 在自主发现和利用安全漏洞方面取得了重要进展,同时也引发了对 AI 安全风险的担忧。
**来源信息**
- **来源**:The Decoder:AI News(RSS)
- **分类**:ai-models
- **发布时间**:2026-05-16 21:08(北京时间)
- **原文**:[打开原文](https://the-decoder.com/new-benchmark-shows-claude-mythos-and-gpt-5-5-can-develop-real-browser-exploits-autonomously)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
根据2026年5月16日发布的一篇First-Principle帖子,卡内基梅隆大学研究人员创建了一个新基准测试,用于衡量AI智能体利用Google V8引擎真实漏洞的能力。帖子指出,Claude Mythos在该测试中的表现大幅领先于GPT-5.5,但其运行成本是后者的12倍。这标志着AI在自主发现和利用安全漏洞方面取得重要进展,同时也引发了安全风险担忧。
答案说明
帖子报道了一个由卡内基梅隆大学研究人员创建的新基准测试,该测试旨在衡量AI智能体利用Google V8引擎真实漏洞的能力。测试结果表明,Claude Mythos的表现大幅领先于GPT-5.5,但运行成本是后者的12倍,显示了AI在自主安全漏洞发现与利用方面的进展及伴随的风险。
这篇帖子回答的问题
- 卡内基梅隆大学研究人员创建的新基准测试旨在衡量AI的什么能力?
- 在该基准测试中,Claude Mythos与GPT-5.5的表现和成本对比如何?
核心观点
- 卡内基梅隆大学研究人员的新基准测试表明,Claude Mythos在自主利用Google V8引擎真实漏洞方面的能力大幅领先于GPT-5.5。
- 该基准测试结果显示,AI在自主发现和利用安全漏洞方面取得了重要进展,同时引发了安全风险担忧。
FAQ
- Q: 新基准测试衡量AI的什么能力?
- A: 衡量AI智能体利用Google V8引擎真实漏洞的能力。
- Q: Claude Mythos与GPT-5.5在该测试中的主要区别是什么?
- A: Claude Mythos的表现大幅领先于GPT-5.5,但其运行成本是后者的12倍。
关键实体
- Claude Mythos
- GPT-5.5
- 卡内基梅隆大学
- Google V8