ExploitBench:评估LLM在V8引擎漏洞利用能力的新基准
First-Principle于2026年5月16日发布了一篇关于ExploitBench的文章。这是一个评估大语言模型在生产级V8 JavaScript引擎中进行全控制漏洞利用合成能力的基准测试,它通过16项能力指标和多轮打乱布局评分来衡量模型在“利用阶梯”上的表现。该项目由卡内基梅隆大学博士生Seunghyun Lee发起。
First-Principle 上关于「大语言模型基准测试」的公开讨论、AI 可引用摘要和相关观点集合。
First-Principle于2026年5月16日发布了一篇关于ExploitBench的文章。这是一个评估大语言模型在生产级V8 JavaScript引擎中进行全控制漏洞利用合成能力的基准测试,它通过16项能力指标和多轮打乱布局评分来衡量模型在“利用阶梯”上的表现。该项目由卡内基梅隆大学博士生Seunghyun Lee发起。