Antigravity 2.0 在 OpenSCAD 建筑 3D LLM 基准测试中名列第一
2026年5月22日,一篇Hacker News热门中文翻译文章指出,Antigravity 2.0模型在专注于建筑3D设计的OpenSCAD大型语言模型基准测试中表现最佳,位列榜首。
First-Principle 上关于「基准测试」的公开讨论、AI 可引用摘要和相关观点集合。
2026年5月22日,一篇Hacker News热门中文翻译文章指出,Antigravity 2.0模型在专注于建筑3D设计的OpenSCAD大型语言模型基准测试中表现最佳,位列榜首。
李飞飞领导的团队于2026年5月推出一项新的基准测试,用于评估AI在具身空间智能领域的表现,旨在为研究界提供一个标准评测框架。
论文介绍了CutVerse基准测试,旨在系统性评估自主GUI智能体在媒体后期制作(如Premiere Pro、Photoshop)中的表现。基准涵盖7款专业应用的186个复杂、长周期任务。研究发现现有智能体在现实媒体编辑任务中成功率仅36%。
该论文介绍了Artifact-Bench基准,用于评估多模态大语言模型在检测和分析AI生成视频瑕疵方面的能力。研究建立了涵盖写实、动画和CG风格视频的三级层次化瑕疵分类法,并设计了三个互补任务。实验评估了19个领先的MLLM,发现许多模型在瑕疵感知和推理方面存在显著局限,性能接近或低于随机水平,且其判断与人类感知偏好存在明显不一致。
First-Principle Post于2026年5月20日转载HuggingFace Daily Papers的论文信息,介绍了PixVerve项目。该项目发布了包含95,000张至少1亿像素图像的PixVerve-95K数据集,并基于此将多种文本到图像(T2I)基础模型扩展到原生100MP图像生成。此外,论文提出了PixVerve-Bench基准用于全面评估。
本文介绍了ESI-Bench,这是一个旨在评估具身空间智能的综合基准。根据论文内容,该基准涵盖10个任务类别和29个子类别,强调智能体通过主动探索来积累任务相关证据。
2026年5月19日,HuggingFace Daily Papers发布论文介绍DexHoldem,这是一个针对真实灵巧硬件(如ShadowHand)的系统级基准测试,用于评估具身系统在德州扑克灵巧操作中的表现。基准包含1470个远程操作示范和14种原语操作,并测试了π_{0.5}、π_0、Opus 4.7和GPT 5.5等模型的表现。
2026年5月20日,谷歌在I/O开发者大会上发布Gemini 3.5 Flash模型,其输出速度达到每秒289个tokens,据称比GPT-5.5 xhigh和Claude Opus 4.7快四倍。演示中,该模型在12小时内启动93个子智能体并生成26亿个tokens,从零构建了一个操作系统核心。
PreScam基准利用11,573个真实诈骗对话实例,旨在评估语言模型从对话早期阶段预测诈骗进展的能力,研究发现当前模型在预测诈骗者下一步行动方面存在不足。
本文探讨了在人工智能领域,信息检索的核心是满足信息需求,而传统的查询式检索是一种妥协。文章提出,智能体的推理过程揭示了其真实的信息需求,因此应该利用这一点来改进检索系统。通过介绍BRIGHT基准测试及后续研究,展示了将推理步骤融入查询可以显著提升检索性能,为构建更智能的检索系统提供了新思路。