**展示HN:格鲁夫评分器**

_Show HN: Gandalf the Grader_

> Gandalf the Grader是一个基于代理的AI输出评估框架,它作为反应式代理在与原始代理相同的环境中运行,根据二元标准对AI输出进行评分。其设计特点包括环境对齐、反应式验证和可互换的领域指导,使其能够评估依赖于具体文件、工具状态或实际操作的输出,而不仅仅是最终文本响应。在评估中,该框架在成本较低的情况下优于基于文本、快照和工作流的验证方法。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:ai-models
- **发布时间**:2026-05-28 02:52(北京时间)
- **原文**:[打开原文](https://github.com/Handshake-AI-Research/gandalf-the-grader)