EvalMonkey：AI智能体基准测试与混沌工程框架

原帖

**EvalMonkey：AI智能体的基准测试与混沌工程框架**

_Should we chaos test our agents?_

> EvalMonkey是一个开源的、本地执行的AI智能体基准测试与混沌工程框架，旨在帮助开发者验证和提升其AI智能体的可靠性与稳健性。该框架支持对11种主流智能体框架和多种大语言模型进行原生评估，提供19个开箱即用的标准基准测试集，并能通过23种混沌注入（如数据篡改、延迟注入）来模拟生产环境中的各种故障，以测试智能体的抗干扰能力。当基准测试得分较低时，框架能自动生成改进评估资产，并支持与Claude Code或Cursor等AI编程助手集成，实现自动化的问题定位与修复。EvalMonkey还提供了可视化仪表盘，用于跟踪可靠性评分和分析失败轨迹。

**来源信息**
- **来源**：Hacker News：AI 热帖
- **分类**：ai-products
- **发布时间**：2026-05-16 00:20（北京时间）
- **原文**：[打开原文](https://github.com/Corbell-AI/evalmonkey)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

EvalMonkey是一个开源的AI智能体基准测试与混沌工程框架，支持11种主流智能体框架、19个基准测试集和23种混沌注入，旨在验证和提升AI智能体的可靠性与稳健性。

答案说明

EvalMonkey是一个开源的、本地执行的AI智能体基准测试与混沌工程框架，帮助开发者验证和提升AI智能体的可靠性与稳健性，支持对11种主流智能体框架进行原生评估，并能通过23种混沌注入模拟生产环境故障。

这篇帖子回答的问题

什么是EvalMonkey？
EvalMonkey框架支持哪些混沌注入类型来测试AI智能体？

核心观点

EvalMonkey是一个开源框架，提供19个开箱即用的标准基准测试集和23种混沌注入来测试AI智能体。
当基准测试得分较低时，框架能自动生成改进评估资产，并支持与Claude Code或Cursor等AI编程助手集成。

FAQ

Q: EvalMonkey框架支持哪些AI编程助手集成？: A: 根据帖子描述，EvalMonkey支持与Claude Code和Cursor等AI编程助手集成，实现自动化的问题定位与修复。

关键实体

EvalMonkey
Corbell-AI
AI智能体基准测试
混沌工程

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题