AI基准测试

First-Principle 上关于「AI基准测试」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

Code Arena编程榜单：阿里千问3.7模型超越GPT和Gemini，位列全球第二

36氪（RSS） · 2026-05-31T09:37:11.615Z

根据36氪2026年5月26日报道，全球第三方编程能力榜单Code Arena发布最新结果，阿里巴巴旗舰AI模型Qwen3.7-Max以1541分排名全球第二，超越GPT-5.5和Gemini-3.5-Flash，仅次于Anthropic的Claude系列模型。

DeepSWE基准：评估前沿编码智能体的长周期软件工程能力

Hacker News：AI 热帖 · 2026-05-31T09:37:08.822Z

2026年5月27日，Hacker News：AI 热帖发布帖子介绍DeepSWE基准。帖子称，该基准旨在解决现有编码智能体评估基准的饱和问题，包含来自91个代码仓库、113个原创任务。帖子公布的基准测试结果显示，GPT-5.5（xhigh配置）以70%±4%的通过率领先。

卧安OneModel 1.7用隐式通路在LIBERO基准测试中实测成功率99%

机器之心：文章库（API） · 2026-05-31T09:37:15.620Z

文章介绍了卧安公司推出的OneModel 1.7模型在具身智能领域的突破，该模型针对世界动作模型（WAM）在环境理解和动作执行之间存在的衔接问题，提出了一种隐式通路方法，在LIBERO基准测试中以99%的成功率取得了实测第一。

深度机智Z-WM模型在WorldArena基准测试中夺得冠军

机器之心：文章库（API） · 2026-05-31T09:37:09.177Z

2026年5月，深度机智（DeepCybo）的Z-WM模型在WorldArena基准测试中取得断崖式领先优势并夺冠。该公司专注于利用‘人类第一视角’数据开发具身智能模型。

新数学基准测试SOOHAK：AI模型能自信解决无解问题

The Decoder：AI News（RSS） · 2026-05-31T09:37:11.615Z

2026年5月17日，The Decoder报道了由64位数学家创建的SOOHAK基准测试，该基准包含439个手写任务，其中99个被刻意设计为无解。谷歌Gemini 3 Pro在研究级问题上以30%正确率领先，但所有模型在识别无解任务方面均未突破50%。增加算力能提升解题能力，但不能改善模型承认问题无解的能力，揭示了AI在表面成果背后缺乏广泛研究技能的差距。

Parametric CAD Bench：评估AI设计可编辑3D机械零件的基准测试

Hacker News：AI 热帖 · 2026-05-31T09:37:15.953Z

2026年5月15日，一篇论文提出了名为Parametric CAD Bench的基准测试，用于评估AI智能体从自然语言描述生成可编辑FreeCAD模型的能力。该测试采用多步智能体循环和“可编辑性关卡”确保功能性工程蓝图。初步结果显示，通过Codex运行的GPT-5.5以0.832分领先，并存在显著的“工具效应”（更换工具可导致分数浮动约10%），单次任务成本在3至170美元之间。