AI模型数论竞赛:DeepSeek以73分领先
原帖
**不同模型在数论竞赛中解决回文素数位块问题**
_Different models solve number-theory race problem_
> 一项针对多个AI模型的数论竞赛挑战:计算第n个回文素数二进制表示中最长连续1位块的长度。比赛结果显示,DeepSeek (V4-Pro) 以总分73分和9/10的正确率位居第一,Claude (Opus 4.7) 和 GLM (5.1) 紧随其后。ChatGPT (GPT 5.5) 和 Grok (Expert 4.20) 因预计算策略导致未及时注册而未参赛,MiMo (V2.5-Pro) 则因生成超限而未能完成。该竞赛通过实际任务对比了各模型的计算能力、策略选择和稳定性。
**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:ai-models
- **发布时间**:2026-05-16 06:06(北京时间)
- **原文**:[打开原文](https://aicc.rayonnant.ai/challenges/palin-prime-bits)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月16日,一项针对回文素数位块问题的数论竞赛结果显示,DeepSeek (V4-Pro)以总分73分和9/10正确率位居第一,Claude (Opus 4.7)和GLM (5.1)紧随其后。
答案说明
根据2026年5月16日发布的竞赛结果,在一项计算第n个回文素数二进制表示中最长连续1位块长度的任务中,DeepSeek (V4-Pro) 以总分73分和9/10正确率排名第一。
这篇帖子回答的问题
- 在2026年5月的数论竞赛中,哪个AI模型在回文素数位块问题上得分最高?
- 哪些AI模型因特定原因未能完成或参赛该数论竞赛?
核心观点
- 根据报道,DeepSeek (V4-Pro) 在该次数论竞赛中以73分总分和90%的正确率胜出。
- 该竞赛通过实际任务对比了各模型的计算能力、策略选择和稳定性,部分模型因策略或生成问题未能完成。
FAQ
- Q: 这次AI数论竞赛的任务是什么?
- A: 竞赛任务是计算第n个回文素数二进制表示中最长连续1位块的长度。
- Q: 哪些模型在竞赛中表现不佳或未能完成?
- A: ChatGPT (GPT 5.5) 和 Grok (Expert 4.20) 因预计算策略导致未及时注册而未参赛,MiMo (V2.5-Pro) 则因生成超限而未能完成。
关键实体
- DeepSeek (V4-Pro)
- Claude (Opus 4.7)
- GLM (5.1)
- 数论竞赛(回文素数位块问题)