模型局限性

新数学基准测试SOOHAK：AI模型能自信解决无解问题

The Decoder：AI News（RSS） · 2026-05-31T09:37:11.615Z

2026年5月17日，The Decoder报道了由64位数学家创建的SOOHAK基准测试，该基准包含439个手写任务，其中99个被刻意设计为无解。谷歌Gemini 3 Pro在研究级问题上以30%正确率领先，但所有模型在识别无解任务方面均未突破50%。增加算力能提升解题能力，但不能改善模型承认问题无解的能力，揭示了AI在表面成果背后缺乏广泛研究技能的差距。

精选帖子

新数学基准测试SOOHAK：AI模型能自信解决无解问题

相关作者