对METR长任务基准测试的批评：方法论缺陷与现实脱节

原帖

**反对METR图表：AI能力基准测试的设计缺陷**

_Against the METR Graph_

> Nathan Witkin批评METR（非营利AI研究机构）的“长任务基准测试”存在方法论缺陷，认为其无法准确衡量AI的实际能力。该基准通过比较AI模型与人类完成软件工程任务所需时间来追踪AI进步，但测试任务脱离现实（如自动评分、缺乏交互），样本小且存在偏差。作者指出，尽管该基准在业界被广泛引用，但它对预测AI替代人类工作或实现经济自动化等场景的指导意义有限，其影响力更多源于对流行叙事的迎合而非科学严谨性。

**来源信息**
- **来源**：Hacker News：AI 热帖
- **分类**：论文
- **发布时间**：2026-05-26 04:57（北京时间）
- **原文**：[打开原文](https://www.transformernews.ai/p/against-the-metr-graph-coding-capabilities-software-jobs-task-ai)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文批评了非营利AI研究机构METR发布的“长任务基准测试”存在方法论缺陷。作者认为，该测试通过比较AI与人类完成软件工程任务时间来衡量进步，但其任务设计（如自动评分、缺乏交互）脱离现实，且样本小、有偏差。尽管该基准被业界广泛引用，但其对预测AI替代人类工作等场景的指导意义有限。

答案说明

根据原帖作者Nathan Witkin的批评，METR的“长任务基准测试”在方法论上存在缺陷，无法准确衡量AI的实际能力。其测试任务脱离现实（如自动评分、缺乏交互），样本小且存在偏差。该基准虽然被广泛引用，但对预测AI替代人类工作等场景的指导意义有限，其影响力更多源于对流行叙事的迎合而非科学严谨性。

这篇帖子回答的问题

METR的长任务基准测试被批评存在哪些主要的方法论缺陷？
作者认为METR基准测试影响力大的原因是什么？

核心观点

作者指出METR的长任务基准测试存在方法论缺陷，其任务设计脱离现实，样本小且有偏差，无法准确衡量AI的实际能力。
作者观察到，尽管该基准在业界被广泛引用，但它对预测AI替代人类工作或实现经济自动化等场景的指导意义有限。

FAQ

Q: METR基准测试是什么？: A: 根据原帖，METR是一个非营利AI研究机构，其开发的“长任务基准测试”旨在通过比较AI模型与人类完成软件工程任务所需时间来追踪AI进步。
Q: 作者批评METR基准测试脱离现实具体指什么？: A: 作者指出测试任务脱离现实，具体表现为自动评分和缺乏交互。

关键实体

Nathan Witkin
METR
长任务基准测试