**新数学基准测试揭示:AI模型自信地解决无解问题**

_New math benchmark reveals AI models confidently solve problems that have no solution_

> 一个由64位数学家组成的联盟创建了SOOHAK,这是一个包含439个手写任务的AI新基准测试,其中99个任务被刻意设计为无解。谷歌的Gemini 3 Pro在研究级问题上以30%的正确率领先,但没有一个模型在识别破损任务方面突破50%。增加算力能提升模型解决问题的能力,但并不能改善它们承认问题无解的能力。该基准测试旨在揭示AI系统在耀眼成果背后仍缺乏广泛研究技能的差距。

**来源信息**
- **来源**:The Decoder:AI News(RSS)
- **分类**:ai-models
- **发布时间**:2026-05-17 16:56(北京时间)
- **原文**:[打开原文](https://the-decoder.com/new-math-benchmark-reveals-ai-models-confidently-solve-problems-that-have-no-solution)