**反对METR图表:AI能力基准测试的设计缺陷**

_Against the METR Graph_

> Nathan Witkin批评METR(非营利AI研究机构)的“长任务基准测试”存在方法论缺陷,认为其无法准确衡量AI的实际能力。该基准通过比较AI模型与人类完成软件工程任务所需时间来追踪AI进步,但测试任务脱离现实(如自动评分、缺乏交互),样本小且存在偏差。作者指出,尽管该基准在业界被广泛引用,但它对预测AI替代人类工作或实现经济自动化等场景的指导意义有限,其影响力更多源于对流行叙事的迎合而非科学严谨性。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:论文
- **发布时间**:2026-05-26 04:57(北京时间)
- **原文**:[打开原文](https://www.transformernews.ai/p/against-the-metr-graph-coding-capabilities-software-jobs-task-ai)