**系统化审计AI智能体基准测试:BenchJack方法研究**

_Systematically Auditing AI Agent Benchmarks with BenchJack_

> 该arXiv论文提出BenchJack,一个自动化红队系统,用于系统性地审计AI智能体基准测试,发现并修复“奖励黑客”漏洞。研究总结了八种常见的缺陷模式,建立了智能体评估检查清单。BenchJack在10个流行基准测试中发现了219个漏洞,使得智能体无需解决实际任务就能获得近乎满分。通过迭代对抗流程,该系统能有效提升基准测试的稳健性,例如将WebArena和OSWorld的可被黑任务比例降至10%以下。研究强调,当前AI评估体系缺乏对抗思维,主动审计对于填补安全缺口至关重要。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:论文
- **发布时间**:2026-05-15 11:38(北京时间)
- **原文**:[打开原文](https://arxiv.org/abs/2605.12673)