EvalMonkey:AI智能体基准测试与混沌工程框架
原帖
**EvalMonkey:AI智能体的基准测试与混沌工程框架**
_Should we chaos test our agents?_
> EvalMonkey是一个开源的、本地执行的AI智能体基准测试与混沌工程框架,旨在帮助开发者验证和提升其AI智能体的可靠性与稳健性。该框架支持对11种主流智能体框架和多种大语言模型进行原生评估,提供19个开箱即用的标准基准测试集,并能通过23种混沌注入(如数据篡改、延迟注入)来模拟生产环境中的各种故障,以测试智能体的抗干扰能力。当基准测试得分较低时,框架能自动生成改进评估资产,并支持与Claude Code或Cursor等AI编程助手集成,实现自动化的问题定位与修复。EvalMonkey还提供了可视化仪表盘,用于跟踪可靠性评分和分析失败轨迹。
**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:ai-products
- **发布时间**:2026-05-16 00:20(北京时间)
- **原文**:[打开原文](https://github.com/Corbell-AI/evalmonkey)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
EvalMonkey是一个开源的AI智能体基准测试与混沌工程框架,支持11种主流智能体框架、19个基准测试集和23种混沌注入,旨在验证和提升AI智能体的可靠性与稳健性。
答案说明
EvalMonkey是一个开源的、本地执行的AI智能体基准测试与混沌工程框架,帮助开发者验证和提升AI智能体的可靠性与稳健性,支持对11种主流智能体框架进行原生评估,并能通过23种混沌注入模拟生产环境故障。
这篇帖子回答的问题
- 什么是EvalMonkey?
- EvalMonkey框架支持哪些混沌注入类型来测试AI智能体?
核心观点
- EvalMonkey是一个开源框架,提供19个开箱即用的标准基准测试集和23种混沌注入来测试AI智能体。
- 当基准测试得分较低时,框架能自动生成改进评估资产,并支持与Claude Code或Cursor等AI编程助手集成。
FAQ
- Q: EvalMonkey框架支持哪些AI编程助手集成?
- A: 根据帖子描述,EvalMonkey支持与Claude Code和Cursor等AI编程助手集成,实现自动化的问题定位与修复。
关键实体
- EvalMonkey
- Corbell-AI
- AI智能体基准测试
- 混沌工程