交互式评估需要一门设计科学:大型语言模型评估范式的转变
原帖
**交互式评估需要一门设计科学**
_Interactive Evaluation Requires a Design Science_
> 本文指出,随着大型语言模型(LLM)越来越多地作为通过工具、环境、用户和其他代理进行交互的系统部署,当前的评估实践仍主要基于以响应为中心的基准测试(例如固定输入、孤立输出)。虽然交互式基准测试已经开始出现,但该领域仍然碎片化。这篇立场论文主张将交互式评估视为一个有原则的评估范式,而不仅仅是一类新的代理基准。作者将评估定义为从证据到判断的自主映射,并说明交互式评估改变了这一映射的两端:证据成为交互生成的轨迹,而评估过程必须评估过程、可恢复性、协调性、稳健性和系统级性能。基于此定义,文章提出了一个双轴分类法,推导出设计原则和报告标准,检查代表性场景,并分析了长期存在的评估挑战如何在轨迹层面重现。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.17829)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
HuggingFace Daily Papers于2026年5月20日推荐了一篇立场论文,该论文主张将交互式评估视为一个有原则的评估范式,而不仅仅是一类新的代理基准。文章指出,随着LLM作为交互系统的部署,当前以响应为中心的评估实践存在局限性。
答案说明
该论文认为,大型语言模型的评估需要从传统的固定输入、孤立输出的基准测试,转向基于交互轨迹的评估范式,这需要设计科学作为支撑。
这篇帖子回答的问题
- 当前大型语言模型评估的主要问题是什么?
- 交互式评估如何改变评估的定义?
核心观点
- 论文主张将交互式评估视为一个有原则的评估范式,而不仅仅是一类新的代理基准。
- 交互式评估改变了证据(成为交互生成的轨迹)和评估过程(需评估过程、可恢复性等)这两个核心要素。
FAQ
- Q: 什么是交互式评估?
- A: 根据论文,交互式评估是将评估视为从证据到判断的自主映射,其中证据是交互生成的轨迹,评估过程需评估过程、可恢复性、协调性、稳健性和系统级性能。
关键实体
- 大型语言模型(LLM)
- 交互式评估
- HuggingFace Daily Papers