**走向评估工程:机器学习评估框架的实证研究**

_Towards Evaluation Engineering: An Empirical Study of ML Evaluation Harnesses in the Wild_

> 该论文对57个机器学习评估框架进行了实证研究,提出了一个五阶段框架模型,并对16,560个问题按工作流程阶段和根本原因进行了分类。研究发现,大多数运营挑战集中在规范阶段(占问题的41.4%),该阶段负责集成外部模型、数据集和评分标准。最常见的三个根本原因是未实现的功能(24.3%)、文档缺失(20.3%)和输入验证缺失(17.2%),合计占已分类问题的61.7%。研究还表明,根本原因因工作流程阶段而异:环境不兼容和外部依赖损坏占配置问题的36.2%,而算法错误(25.9%)和验证差距(22.5%)主导评估问题。这些贡献为将评估工程视为一个独立的软件工程领域奠定了实证基础。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.24213)