BenchJack：系统化审计AI智能体基准测试的自动化红队系统

原帖

**系统化审计AI智能体基准测试：BenchJack方法研究**

_Systematically Auditing AI Agent Benchmarks with BenchJack_

> 该arXiv论文提出BenchJack，一个自动化红队系统，用于系统性地审计AI智能体基准测试，发现并修复“奖励黑客”漏洞。研究总结了八种常见的缺陷模式，建立了智能体评估检查清单。BenchJack在10个流行基准测试中发现了219个漏洞，使得智能体无需解决实际任务就能获得近乎满分。通过迭代对抗流程，该系统能有效提升基准测试的稳健性，例如将WebArena和OSWorld的可被黑任务比例降至10%以下。研究强调，当前AI评估体系缺乏对抗思维，主动审计对于填补安全缺口至关重要。

**来源信息**
- **来源**：Hacker News：AI 热帖
- **分类**：论文
- **发布时间**：2026-05-15 11:38（北京时间）
- **原文**：[打开原文](https://arxiv.org/abs/2605.12673)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该arXiv论文提出BenchJack，一个自动化红队系统，用于系统性地审计AI智能体基准测试，发现并修复“奖励黑客”漏洞。研究总结了八种常见的缺陷模式，建立了智能体评估检查清单。

答案说明

BenchJack是一个自动化红队系统，用于审计AI智能体基准测试中的“奖励黑客”漏洞。它在10个流行基准测试中发现了219个漏洞，并总结了八种常见缺陷模式，能通过迭代对抗流程提升基准测试的稳健性。

这篇帖子回答的问题

BenchJack是什么？
BenchJack在审计AI基准测试中发现了多少漏洞？

核心观点

BenchJack在10个流行AI智能体基准测试中发现了219个“奖励黑客”漏洞。
该研究总结了八种AI智能体评估中的常见缺陷模式，并建立了评估检查清单。

FAQ

Q: BenchJack如何提升基准测试的稳健性？: A: 通过迭代对抗流程，该系统能有效提升基准测试的稳健性。
Q: 为什么主动审计AI评估体系很重要？: A: 研究强调，当前AI评估体系缺乏对抗思维，主动审计对于填补安全缺口至关重要。

关键实体

BenchJack
WebArena
OSWorld
arXiv