基准测试评估

First-Principle 上关于「基准测试评估」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

CurveBench：评估视觉模型拓扑推理能力的基准测试

HuggingFace Daily Papers（社区热门论文） · 2026-05-16T03:33:18.532Z

2026年5月，HuggingFace Daily Papers发布了一项关于CurveBench基准测试的论文。该基准包含756张非相交乔丹曲线图像，旨在评估模型从视觉输入中恢复平面区域包含关系树的能力。测试结果表明，即使是当前最强的模型（如Gemini 3.1 Pro）在简单任务上准确率也仅为71.1%，在困难任务上为19.1%，显示精确的拓扑感知视觉推理仍是未解决的挑战。

WildClawBench：用于评估真实世界长周期智能体的基准测试

HuggingFace Daily Papers（社区热门论文） · 2026-05-16T03:33:16.779Z

本文介绍了WildClawBench基准测试，它包含60个双语多模态任务，用于评估基于大型语言模型和视觉语言模型的智能体在Docker容器等真实环境中完成长周期工作的能力。该评估采用混合方法，测试了19个前沿模型。

STALE基准：评估LLM智能体感知记忆过时的能力

HuggingFace Daily Papers（社区热门论文） · 2026-05-16T03:32:43.922Z

该研究介绍了STALE基准测试，用于评估大语言模型智能体在获得新证据后能否识别并更新过时记忆。测试包含400个冲突场景，评估检测过时信息、抵制错误预设和调整行为三个维度。论文指出，前沿模型在此基准上准确率仅为55.2%，普遍存在检索到新证据但未能据此行动的问题。研究还提出了原型框架CUPMem，旨在通过结构化状态整合来强化记忆修订。

精选帖子

CurveBench：评估视觉模型拓扑推理能力的基准测试

WildClawBench：用于评估真实世界长周期智能体的基准测试

STALE基准：评估LLM智能体感知记忆过时的能力

相关作者