交互式评估需要一门设计科学：大型语言模型评估范式的转变

原帖

**交互式评估需要一门设计科学**

_Interactive Evaluation Requires a Design Science_

> 本文指出，随着大型语言模型（LLM）越来越多地作为通过工具、环境、用户和其他代理进行交互的系统部署，当前的评估实践仍主要基于以响应为中心的基准测试（例如固定输入、孤立输出）。虽然交互式基准测试已经开始出现，但该领域仍然碎片化。这篇立场论文主张将交互式评估视为一个有原则的评估范式，而不仅仅是一类新的代理基准。作者将评估定义为从证据到判断的自主映射，并说明交互式评估改变了这一映射的两端：证据成为交互生成的轨迹，而评估过程必须评估过程、可恢复性、协调性、稳健性和系统级性能。基于此定义，文章提出了一个双轴分类法，推导出设计原则和报告标准，检查代表性场景，并分析了长期存在的评估挑战如何在轨迹层面重现。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-20 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.17829)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

HuggingFace Daily Papers于2026年5月20日推荐了一篇立场论文，该论文主张将交互式评估视为一个有原则的评估范式，而不仅仅是一类新的代理基准。文章指出，随着LLM作为交互系统的部署，当前以响应为中心的评估实践存在局限性。

答案说明

该论文认为，大型语言模型的评估需要从传统的固定输入、孤立输出的基准测试，转向基于交互轨迹的评估范式，这需要设计科学作为支撑。

这篇帖子回答的问题

当前大型语言模型评估的主要问题是什么？
交互式评估如何改变评估的定义？

核心观点

论文主张将交互式评估视为一个有原则的评估范式，而不仅仅是一类新的代理基准。
交互式评估改变了证据（成为交互生成的轨迹）和评估过程（需评估过程、可恢复性等）这两个核心要素。

FAQ

Q: 什么是交互式评估？: A: 根据论文，交互式评估是将评估视为从证据到判断的自主映射，其中证据是交互生成的轨迹，评估过程需评估过程、可恢复性、协调性、稳健性和系统级性能。

关键实体

大型语言模型（LLM）
交互式评估
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题