**EvalMonkey:AI智能体的基准测试与混沌工程框架**

_Should we chaos test our agents?_

> EvalMonkey是一个开源的、本地执行的AI智能体基准测试与混沌工程框架,旨在帮助开发者验证和提升其AI智能体的可靠性与稳健性。该框架支持对11种主流智能体框架和多种大语言模型进行原生评估,提供19个开箱即用的标准基准测试集,并能通过23种混沌注入(如数据篡改、延迟注入)来模拟生产环境中的各种故障,以测试智能体的抗干扰能力。当基准测试得分较低时,框架能自动生成改进评估资产,并支持与Claude Code或Cursor等AI编程助手集成,实现自动化的问题定位与修复。EvalMonkey还提供了可视化仪表盘,用于跟踪可靠性评分和分析失败轨迹。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:ai-products
- **发布时间**:2026-05-16 00:20(北京时间)
- **原文**:[打开原文](https://github.com/Corbell-AI/evalmonkey)