大语言模型基准测试

ExploitBench：评估LLM在V8引擎漏洞利用能力的新基准

Hacker News：AI 热帖 · 2026-05-16T03:31:38.628Z

First-Principle于2026年5月16日发布了一篇关于ExploitBench的文章。这是一个评估大语言模型在生产级V8 JavaScript引擎中进行全控制漏洞利用合成能力的基准测试，它通过16项能力指标和多轮打乱布局评分来衡量模型在“利用阶梯”上的表现。该项目由卡内基梅隆大学博士生Seunghyun Lee发起。

精选帖子

ExploitBench：评估LLM在V8引擎漏洞利用能力的新基准

相关作者