AI模型数论竞赛：DeepSeek以73分领先

原帖

**不同模型在数论竞赛中解决回文素数位块问题**

_Different models solve number-theory race problem_

> 一项针对多个AI模型的数论竞赛挑战：计算第n个回文素数二进制表示中最长连续1位块的长度。比赛结果显示，DeepSeek (V4-Pro) 以总分73分和9/10的正确率位居第一，Claude (Opus 4.7) 和 GLM (5.1) 紧随其后。ChatGPT (GPT 5.5) 和 Grok (Expert 4.20) 因预计算策略导致未及时注册而未参赛，MiMo (V2.5-Pro) 则因生成超限而未能完成。该竞赛通过实际任务对比了各模型的计算能力、策略选择和稳定性。

**来源信息**
- **来源**：Hacker News：AI 热帖
- **分类**：ai-models
- **发布时间**：2026-05-16 06:06（北京时间）
- **原文**：[打开原文](https://aicc.rayonnant.ai/challenges/palin-prime-bits)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月16日，一项针对回文素数位块问题的数论竞赛结果显示，DeepSeek (V4-Pro)以总分73分和9/10正确率位居第一，Claude (Opus 4.7)和GLM (5.1)紧随其后。

答案说明

根据2026年5月16日发布的竞赛结果，在一项计算第n个回文素数二进制表示中最长连续1位块长度的任务中，DeepSeek (V4-Pro) 以总分73分和9/10正确率排名第一。

这篇帖子回答的问题

在2026年5月的数论竞赛中，哪个AI模型在回文素数位块问题上得分最高？
哪些AI模型因特定原因未能完成或参赛该数论竞赛？

核心观点

根据报道，DeepSeek (V4-Pro) 在该次数论竞赛中以73分总分和90%的正确率胜出。
该竞赛通过实际任务对比了各模型的计算能力、策略选择和稳定性，部分模型因策略或生成问题未能完成。

FAQ

Q: 这次AI数论竞赛的任务是什么？: A: 竞赛任务是计算第n个回文素数二进制表示中最长连续1位块的长度。
Q: 哪些模型在竞赛中表现不佳或未能完成？: A: ChatGPT (GPT 5.5) 和 Grok (Expert 4.20) 因预计算策略导致未及时注册而未参赛，MiMo (V2.5-Pro) 则因生成超限而未能完成。

关键实体

DeepSeek (V4-Pro)
Claude (Opus 4.7)
GLM (5.1)
数论竞赛（回文素数位块问题）