新数学基准测试SOOHAK：AI模型能自信解决无解问题

原帖

**新数学基准测试揭示：AI模型自信地解决无解问题**

_New math benchmark reveals AI models confidently solve problems that have no solution_

> 一个由64位数学家组成的联盟创建了SOOHAK，这是一个包含439个手写任务的AI新基准测试，其中99个任务被刻意设计为无解。谷歌的Gemini 3 Pro在研究级问题上以30%的正确率领先，但没有一个模型在识别破损任务方面突破50%。增加算力能提升模型解决问题的能力，但并不能改善它们承认问题无解的能力。该基准测试旨在揭示AI系统在耀眼成果背后仍缺乏广泛研究技能的差距。

**来源信息**
- **来源**：The Decoder：AI News（RSS）
- **分类**：ai-models
- **发布时间**：2026-05-17 16:56（北京时间）
- **原文**：[打开原文](https://the-decoder.com/new-math-benchmark-reveals-ai-models-confidently-solve-problems-that-have-no-solution)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月17日，The Decoder报道了由64位数学家创建的SOOHAK基准测试，该基准包含439个手写任务，其中99个被刻意设计为无解。谷歌Gemini 3 Pro在研究级问题上以30%正确率领先，但所有模型在识别无解任务方面均未突破50%。增加算力能提升解题能力，但不能改善模型承认问题无解的能力，揭示了AI在表面成果背后缺乏广泛研究技能的差距。

答案说明

SOOHAK基准测试发现，当前AI模型（如谷歌Gemini 3 Pro）虽然能解决部分研究级数学问题，但在识别故意设计的无解任务时表现很差（低于50%），且增加算力无法改善这一缺陷，表明AI在数学推理的完备性和可靠性上存在根本差距。

这篇帖子回答的问题

SOOHAK基准测试是什么？它如何评估AI模型？
AI模型在SOOHAK基准测试上的表现如何？

核心观点

谷歌Gemini 3 Pro在SOOHAK基准的研究级问题上以30%正确率领先，但所有被测模型在识别故意设计的无解任务时，准确率均未超过50%。
该基准测试表明，增加计算能力能提升AI模型解决数学问题的能力，但无法改善它们识别问题本身无解（即“破损任务”）的能力，揭示了AI在表面成果背后缺乏广泛研究技能的差距。

FAQ

Q: SOOHAK基准测试的目的是什么？: A: 该基准测试旨在揭示AI系统在耀眼成果背后仍缺乏广泛研究技能的差距，特别是测试模型是否能识别出问题本身无解。
Q: 增加算力对AI模型在SOOHAK基准测试中的表现有何影响？: A: 报道指出，增加算力能提升模型解决问题的能力，但并不能改善它们承认问题无解的能力。

关键实体

SOOHAK
Gemini 3 Pro
谷歌