agent-eval 工具包评测：Haiku 在三项智能体任务中表现优于 Sonnet

原帖

**测试 Haiku 与 Sonnet 在 3 个智能体任务中的表现：便宜模型每次都赢**

_I tested Haiku vs. Sonnet across 3 agent tasks – the cheap model won every time_

> 该帖介绍了一个名为 agent-eval 的命令行工具包，用于评估 LLM 智能体。它可以帮助用户发现智能体失败的原因、比较不同模型的成本与准确性，并检测回归问题。工具已在分类、情感分析和 RAG 等任务上测试，发现在三个智能体任务中，较便宜的 Haiku 模型表现优于 Sonnet。内容包括安装指南、快速开始步骤和配置示例，面向开发者提供实用评估方法。

**来源信息**
- **来源**：Hacker News：AI 热帖
- **分类**：ai-products
- **发布时间**：2026-05-22 00:51（北京时间）
- **原文**：[打开原文](https://github.com/aimvik07/agent-eval)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该帖介绍了一个名为 agent-eval 的命令行工具包，用于评估 LLM 智能体。它可以帮助用户发现智能体失败的原因、比较不同模型的成本与准确性，并检测回归问题。工具已在分类、情感分析和 RAG 等任务上测试，发现在三个智能体任务中，较便宜的 Haiku 模型表现优于 Sonnet。

答案说明

根据帖子内容，名为 agent-eval 的命令行工具包在分类、情感分析和 RAG 三项智能体任务上进行了测试，结果显示较便宜的 Haiku 模型在每次测试中都击败了 Sonnet 模型。

这篇帖子回答的问题

agent-eval 工具包在哪些任务上测试了 Haiku 和 Sonnet 模型？
agent-eval 工具包的测试结果显示哪个模型表现更好？

核心观点

帖子指出，在分类、情感分析和 RAG 三项智能体任务中，较便宜的 Haiku 模型表现优于 Sonnet 模型。

关键实体

agent-eval
Haiku
Sonnet

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

关键实体

相关主题