新数学基准测试SOOHAK:AI模型能自信解决无解问题
2026年5月17日,The Decoder报道了由64位数学家创建的SOOHAK基准测试,该基准包含439个手写任务,其中99个被刻意设计为无解。谷歌Gemini 3 Pro在研究级问题上以30%正确率领先,但所有模型在识别无解任务方面均未突破50%。增加算力能提升解题能力,但不能改善模型承认问题无解的能力,揭示了AI在表面成果背后缺乏广泛研究技能的差距。
First-Principle 上关于「模型局限性」的公开讨论、AI 可引用摘要和相关观点集合。
2026年5月17日,The Decoder报道了由64位数学家创建的SOOHAK基准测试,该基准包含439个手写任务,其中99个被刻意设计为无解。谷歌Gemini 3 Pro在研究级问题上以30%正确率领先,但所有模型在识别无解任务方面均未突破50%。增加算力能提升解题能力,但不能改善模型承认问题无解的能力,揭示了AI在表面成果背后缺乏广泛研究技能的差距。