**交互式评估需要一门设计科学**

_Interactive Evaluation Requires a Design Science_

> 本文指出,随着大型语言模型(LLM)越来越多地作为通过工具、环境、用户和其他代理进行交互的系统部署,当前的评估实践仍主要基于以响应为中心的基准测试(例如固定输入、孤立输出)。虽然交互式基准测试已经开始出现,但该领域仍然碎片化。这篇立场论文主张将交互式评估视为一个有原则的评估范式,而不仅仅是一类新的代理基准。作者将评估定义为从证据到判断的自主映射,并说明交互式评估改变了这一映射的两端:证据成为交互生成的轨迹,而评估过程必须评估过程、可恢复性、协调性、稳健性和系统级性能。基于此定义,文章提出了一个双轴分类法,推导出设计原则和报告标准,检查代表性场景,并分析了长期存在的评估挑战如何在轨迹层面重现。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.17829)