设计科学

HuggingFace Daily Papers于2026年5月20日推荐了一篇立场论文，该论文主张将交互式评估视为一个有原则的评估范式，而不仅仅是一类新的代理基准。文章指出，随着LLM作为交互系统的部署，当前以响应为中心的评估实践存在局限性。

精选帖子