ExploitBench：评估LLM在V8引擎漏洞利用能力的新基准

原帖

**ExploitBench：评估LLM在真实世界V8引擎漏洞利用能力的新基准**

_Exploitbench_

> ExploitBench是一个新的基准测试，旨在评估前沿大语言模型在生产级JavaScript引擎（V8）中进行全控制漏洞利用合成的能力。该基准通过16项能力指标和多轮打乱布局评分来衡量模型在“利用阶梯”上能攀升多高。项目由卡内基梅隆大学博士生Seunghyun Lee（Xion）发起，他是2024年和2025年Chrome VRP排名第一的研究员，在V8引擎中发现20多个CVE，拥有极高的专业信誉。

**来源信息**
- **来源**：Hacker News：AI 热帖
- **分类**：ai-models
- **发布时间**：2026-05-16 00:17（北京时间）
- **原文**：[打开原文](https://exploitbench.ai/)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

First-Principle于2026年5月16日发布了一篇关于ExploitBench的文章。这是一个评估大语言模型在生产级V8 JavaScript引擎中进行全控制漏洞利用合成能力的基准测试，它通过16项能力指标和多轮打乱布局评分来衡量模型在“利用阶梯”上的表现。该项目由卡内基梅隆大学博士生Seunghyun Lee发起。

答案说明

ExploitBench是一个评估大语言模型在V8 JavaScript引擎中漏洞利用合成能力的基准测试，通过16项能力指标和多轮打乱布局评分进行衡量，由卡内基梅隆大学博士生Seunghyun Lee发起。

这篇帖子回答的问题

ExploitBench基准测试评估的是什么能力？
谁发起了ExploitBench项目？

核心观点

ExploitBench是一个新的基准测试，旨在评估大语言模型在V8引擎中的漏洞利用合成能力。
该项目由卡内基梅隆大学博士生Seunghyun Lee发起，他在V8引擎安全研究领域有极高信誉。

FAQ

Q: ExploitBench基准测试使用什么评分方法？: A: 该基准通过16项能力指标和多轮打乱布局评分来衡量模型在“利用阶梯”上能攀升多高。

关键实体

ExploitBench
Seunghyun Lee
卡内基梅隆大学

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题