CurveBench：评估视觉模型拓扑推理能力的基准测试

原帖

**CurveBench：一个针对嵌套乔丹曲线精确拓扑推理的基准测试**

_CurveBench: A Benchmark for Exact Topological Reasoning over Nested Jordan Curves_

> 研究者推出了CurveBench，这是一个用于评估视觉输入下层级拓扑推理能力的基准测试。该基准包含756张图像，描绘了非相交的乔丹曲线，并标注了平面区域间的包含关系树。任务是模型需从图像中恢复完整的包含关系树。测试显示，即使是最强的模型（如Gemini 3.1 Pro）在简单任务上仅达到71.1%的准确率，而在困难任务上仅为19.1%。通过强化学习微调，开源的Qwen3-VL-8B模型在简单任务上的准确率从2.8%提升至33.3%，超过了部分商业模型。结果表明，精确的拓扑感知视觉推理仍然是一个未解决的挑战。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-15 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.14068)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月，HuggingFace Daily Papers发布了一项关于CurveBench基准测试的论文。该基准包含756张非相交乔丹曲线图像，旨在评估模型从视觉输入中恢复平面区域包含关系树的能力。测试结果表明，即使是当前最强的模型（如Gemini 3.1 Pro）在简单任务上准确率也仅为71.1%，在困难任务上为19.1%，显示精确的拓扑感知视觉推理仍是未解决的挑战。

答案说明

CurveBench是一个用于评估视觉输入下层级拓扑推理能力的基准测试。它包含756张非相交乔丹曲线图像，要求模型从图像中恢复完整的包含关系树。研究表明，即使是Gemini 3.1 Pro等先进模型，其表现也有限，表明精确的拓扑感知视觉推理仍然是一个未解决的挑战。

这篇帖子回答的问题

CurveBench基准测试是评估模型哪方面的能力？
根据论文，目前最强的模型在CurveBench困难任务上的表现如何？

核心观点

即使是当前最强的视觉模型（如Gemini 3.1 Pro）在CurveBench基准测试的困难任务上准确率也仅为19.1%。
通过强化学习微调，开源的Qwen3-VL-8B模型在CurveBench简单任务上的准确率从2.8%提升至33.3%，超过了部分商业模型。

FAQ

Q: CurveBench基准测试的目的是什么？: A: 根据帖子，CurveBench用于评估视觉输入下层级拓扑推理能力，特别是从图像中恢复平面区域间的包含关系树。
Q: 开源模型Qwen3-VL-8B在CurveBench上的表现如何？: A: 帖子指出，通过强化学习微调，Qwen3-VL-8B模型在简单任务上的准确率从2.8%提升至33.3%，超过了部分商业模型。

关键实体

CurveBench
Gemini 3.1 Pro
Qwen3-VL-8B
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题