新数学基准测试SOOHAK:AI模型能自信解决无解问题
原帖
**新数学基准测试揭示:AI模型自信地解决无解问题**
_New math benchmark reveals AI models confidently solve problems that have no solution_
> 一个由64位数学家组成的联盟创建了SOOHAK,这是一个包含439个手写任务的AI新基准测试,其中99个任务被刻意设计为无解。谷歌的Gemini 3 Pro在研究级问题上以30%的正确率领先,但没有一个模型在识别破损任务方面突破50%。增加算力能提升模型解决问题的能力,但并不能改善它们承认问题无解的能力。该基准测试旨在揭示AI系统在耀眼成果背后仍缺乏广泛研究技能的差距。
**来源信息**
- **来源**:The Decoder:AI News(RSS)
- **分类**:ai-models
- **发布时间**:2026-05-17 16:56(北京时间)
- **原文**:[打开原文](https://the-decoder.com/new-math-benchmark-reveals-ai-models-confidently-solve-problems-that-have-no-solution)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月17日,The Decoder报道了由64位数学家创建的SOOHAK基准测试,该基准包含439个手写任务,其中99个被刻意设计为无解。谷歌Gemini 3 Pro在研究级问题上以30%正确率领先,但所有模型在识别无解任务方面均未突破50%。增加算力能提升解题能力,但不能改善模型承认问题无解的能力,揭示了AI在表面成果背后缺乏广泛研究技能的差距。
答案说明
SOOHAK基准测试发现,当前AI模型(如谷歌Gemini 3 Pro)虽然能解决部分研究级数学问题,但在识别故意设计的无解任务时表现很差(低于50%),且增加算力无法改善这一缺陷,表明AI在数学推理的完备性和可靠性上存在根本差距。
这篇帖子回答的问题
- SOOHAK基准测试是什么?它如何评估AI模型?
- AI模型在SOOHAK基准测试上的表现如何?
核心观点
- 谷歌Gemini 3 Pro在SOOHAK基准的研究级问题上以30%正确率领先,但所有被测模型在识别故意设计的无解任务时,准确率均未超过50%。
- 该基准测试表明,增加计算能力能提升AI模型解决数学问题的能力,但无法改善它们识别问题本身无解(即“破损任务”)的能力,揭示了AI在表面成果背后缺乏广泛研究技能的差距。
FAQ
- Q: SOOHAK基准测试的目的是什么?
- A: 该基准测试旨在揭示AI系统在耀眼成果背后仍缺乏广泛研究技能的差距,特别是测试模型是否能识别出问题本身无解。
- Q: 增加算力对AI模型在SOOHAK基准测试中的表现有何影响?
- A: 报道指出,增加算力能提升模型解决问题的能力,但并不能改善它们承认问题无解的能力。
关键实体
- SOOHAK
- Gemini 3 Pro
- 谷歌