基准测试

First-Principle 上关于「基准测试」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

Antigravity 2.0 在 OpenSCAD 建筑 3D LLM 基准测试中名列第一

Hacker News 热门（buzzing.cc 中文翻译） · 2026-05-31T09:37:11.933Z

2026年5月22日，一篇Hacker News热门中文翻译文章指出，Antigravity 2.0模型在专注于建筑3D设计的OpenSCAD大型语言模型基准测试中表现最佳，位列榜首。

李飞飞团队发布具身空间智能评测框架

量子位（RSS） · 2026-05-31T09:37:12.258Z

李飞飞领导的团队于2026年5月推出一项新的基准测试，用于评估AI在具身空间智能领域的表现，旨在为研究界提供一个标准评测框架。

CutVerse：面向媒体后期制作编辑的组合式GUI智能体基准测试

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:07.184Z

论文介绍了CutVerse基准测试，旨在系统性评估自主GUI智能体在媒体后期制作（如Premiere Pro、Photoshop）中的表现。基准涵盖7款专业应用的186个复杂、长周期任务。研究发现现有智能体在现实媒体编辑任务中成功率仅36%。

Artifact-Bench：评估多模态大语言模型检测与评估AI生成视频瑕疵的能力

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:18.169Z

该论文介绍了Artifact-Bench基准，用于评估多模态大语言模型在检测和分析AI生成视频瑕疵方面的能力。研究建立了涵盖写实、动画和CG风格视频的三级层次化瑕疵分类法，并设计了三个互补任务。实验评估了19个领先的MLLM，发现许多模型在瑕疵感知和推理方面存在显著局限，性能接近或低于随机水平，且其判断与人类感知偏好存在明显不一致。

PixVerve：利用大规模数据集实现原生超高分辨率图像生成

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:11.933Z

First-Principle Post于2026年5月20日转载HuggingFace Daily Papers的论文信息，介绍了PixVerve项目。该项目发布了包含95,000张至少1亿像素图像的PixVerve-95K数据集，并基于此将多种文本到图像（T2I）基础模型扩展到原生100MP图像生成。此外，论文提出了PixVerve-Bench基准用于全面评估。

ESI-Bench：一个用于评估具身空间智能的综合基准

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:08.460Z

本文介绍了ESI-Bench，这是一个旨在评估具身空间智能的综合基准。根据论文内容，该基准涵盖10个任务类别和29个子类别，强调智能体通过主动探索来积累任务相关证据。

DexHoldem：灵巧具身系统玩德州扑克的基准测试

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:22.560Z

2026年5月19日，HuggingFace Daily Papers发布论文介绍DexHoldem，这是一个针对真实灵巧硬件（如ShadowHand）的系统级基准测试，用于评估具身系统在德州扑克灵巧操作中的表现。基准包含1470个远程操作示范和14种原语操作，并测试了π_{0.5}、π_0、Opus 4.7和GPT 5.5等模型的表现。

谷歌在2026 I/O大会发布Gemini 3.5 Flash模型，输出速度超越GPT-5.5

IT之家（RSS） · 2026-05-31T09:37:13.041Z

2026年5月20日，谷歌在I/O开发者大会上发布Gemini 3.5 Flash模型，其输出速度达到每秒289个tokens，据称比GPT-5.5 xhigh和Claude Opus 4.7快四倍。演示中，该模型在12小时内启动93个子智能体并生成26亿个tokens，从零构建了一个操作系统核心。

PreScam：基于早期对话预测诈骗进展的基准

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:22.560Z

PreScam基准利用11,573个真实诈骗对话实例，旨在评估语言模型从对话早期阶段预测诈骗进展的能力，研究发现当前模型在预测诈骗者下一步行动方面存在不足。

智能体有信息需求：将推理融入检索系统以提升性能

Hacker News：AI 热帖 · 2026-05-31T09:37:22.972Z

本文探讨了在人工智能领域，信息检索的核心是满足信息需求，而传统的查询式检索是一种妥协。文章提出，智能体的推理过程揭示了其真实的信息需求，因此应该利用这一点来改进检索系统。通过介绍BRIGHT基准测试及后续研究，展示了将推理步骤融入查询可以显著提升检索性能，为构建更智能的检索系统提供了新思路。

精选帖子

相关作者