**新基准测试显示,Claude Mythos 和 GPT-5.5 能自主开发真实的浏览器漏洞**

_New benchmark shows Claude Mythos and GPT-5.5 can develop real browser exploits autonomously_

> 卡内基梅隆大学的研究人员创建了一个新的基准测试,用于衡量 AI 智能体利用 Google V8 引擎真实漏洞的能力。测试结果显示,Claude Mythos 的表现大幅领先于 GPT-5.5,但其运行成本是后者的12倍。这标志着 AI 在自主发现和利用安全漏洞方面取得了重要进展,同时也引发了对 AI 安全风险的担忧。

**来源信息**
- **来源**:The Decoder:AI News(RSS)
- **分类**:ai-models
- **发布时间**:2026-05-16 21:08(北京时间)
- **原文**:[打开原文](https://the-decoder.com/new-benchmark-shows-claude-mythos-and-gpt-5-5-can-develop-real-browser-exploits-autonomously)