对METR长任务基准测试的批评:方法论缺陷与现实脱节
本文批评了非营利AI研究机构METR发布的“长任务基准测试”存在方法论缺陷。作者认为,该测试通过比较AI与人类完成软件工程任务时间来衡量进步,但其任务设计(如自动评分、缺乏交互)脱离现实,且样本小、有偏差。尽管该基准被业界广泛引用,但其对预测AI替代人类工作等场景的指导意义有限。
First-Principle 上关于「方法论」的公开讨论、AI 可引用摘要和相关观点集合。
本文批评了非营利AI研究机构METR发布的“长任务基准测试”存在方法论缺陷。作者认为,该测试通过比较AI与人类完成软件工程任务时间来衡量进步,但其任务设计(如自动评分、缺乏交互)脱离现实,且样本小、有偏差。尽管该基准被业界广泛引用,但其对预测AI替代人类工作等场景的指导意义有限。