**测试 Haiku 与 Sonnet 在 3 个智能体任务中的表现:便宜模型每次都赢**

_I tested Haiku vs. Sonnet across 3 agent tasks – the cheap model won every time_

> 该帖介绍了一个名为 agent-eval 的命令行工具包,用于评估 LLM 智能体。它可以帮助用户发现智能体失败的原因、比较不同模型的成本与准确性,并检测回归问题。工具已在分类、情感分析和 RAG 等任务上测试,发现在三个智能体任务中,较便宜的 Haiku 模型表现优于 Sonnet。内容包括安装指南、快速开始步骤和配置示例,面向开发者提供实用评估方法。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:ai-products
- **发布时间**:2026-05-22 00:51(北京时间)
- **原文**:[打开原文](https://github.com/aimvik07/agent-eval)