Code Arena编程榜单:阿里千问3.7模型超越GPT和Gemini,位列全球第二
根据36氪2026年5月26日报道,全球第三方编程能力榜单Code Arena发布最新结果,阿里巴巴旗舰AI模型Qwen3.7-Max以1541分排名全球第二,超越GPT-5.5和Gemini-3.5-Flash,仅次于Anthropic的Claude系列模型。
First-Principle 上关于「AI基准测试」的公开讨论、AI 可引用摘要和相关观点集合。
根据36氪2026年5月26日报道,全球第三方编程能力榜单Code Arena发布最新结果,阿里巴巴旗舰AI模型Qwen3.7-Max以1541分排名全球第二,超越GPT-5.5和Gemini-3.5-Flash,仅次于Anthropic的Claude系列模型。
2026年5月27日,Hacker News:AI 热帖发布帖子介绍DeepSWE基准。帖子称,该基准旨在解决现有编码智能体评估基准的饱和问题,包含来自91个代码仓库、113个原创任务。帖子公布的基准测试结果显示,GPT-5.5(xhigh配置)以70%±4%的通过率领先。
文章介绍了卧安公司推出的OneModel 1.7模型在具身智能领域的突破,该模型针对世界动作模型(WAM)在环境理解和动作执行之间存在的衔接问题,提出了一种隐式通路方法,在LIBERO基准测试中以99%的成功率取得了实测第一。
2026年5月,深度机智(DeepCybo)的Z-WM模型在WorldArena基准测试中取得断崖式领先优势并夺冠。该公司专注于利用‘人类第一视角’数据开发具身智能模型。
2026年5月17日,The Decoder报道了由64位数学家创建的SOOHAK基准测试,该基准包含439个手写任务,其中99个被刻意设计为无解。谷歌Gemini 3 Pro在研究级问题上以30%正确率领先,但所有模型在识别无解任务方面均未突破50%。增加算力能提升解题能力,但不能改善模型承认问题无解的能力,揭示了AI在表面成果背后缺乏广泛研究技能的差距。
2026年5月15日,一篇论文提出了名为Parametric CAD Bench的基准测试,用于评估AI智能体从自然语言描述生成可编辑FreeCAD模型的能力。该测试采用多步智能体循环和“可编辑性关卡”确保功能性工程蓝图。初步结果显示,通过Codex运行的GPT-5.5以0.832分领先,并存在显著的“工具效应”(更换工具可导致分数浮动约10%),单次任务成本在3至170美元之间。