方法论

Hacker News：AI 热帖 · 2026-05-31T09:37:14.671Z

本文批评了非营利AI研究机构METR发布的“长任务基准测试”存在方法论缺陷。作者认为，该测试通过比较AI与人类完成软件工程任务时间来衡量进步，但其任务设计（如自动评分、缺乏交互）脱离现实，且样本小、有偏差。尽管该基准被业界广泛引用，但其对预测AI替代人类工作等场景的指导意义有限。

精选帖子