拓扑推理

CurveBench：评估视觉模型拓扑推理能力的基准测试

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:20.519Z

2026年5月，HuggingFace Daily Papers发布了一项关于CurveBench基准测试的论文。该基准包含756张非相交乔丹曲线图像，旨在评估模型从视觉输入中恢复平面区域包含关系树的能力。测试结果表明，即使是当前最强的模型（如Gemini 3.1 Pro）在简单任务上准确率也仅为71.1%，在困难任务上为19.1%，显示精确的拓扑感知视觉推理仍是未解决的挑战。

精选帖子

CurveBench：评估视觉模型拓扑推理能力的基准测试

相关作者