CurveBench:评估视觉模型拓扑推理能力的基准测试
原帖
**CurveBench:一个针对嵌套乔丹曲线精确拓扑推理的基准测试**
_CurveBench: A Benchmark for Exact Topological Reasoning over Nested Jordan Curves_
> 研究者推出了CurveBench,这是一个用于评估视觉输入下层级拓扑推理能力的基准测试。该基准包含756张图像,描绘了非相交的乔丹曲线,并标注了平面区域间的包含关系树。任务是模型需从图像中恢复完整的包含关系树。测试显示,即使是最强的模型(如Gemini 3.1 Pro)在简单任务上仅达到71.1%的准确率,而在困难任务上仅为19.1%。通过强化学习微调,开源的Qwen3-VL-8B模型在简单任务上的准确率从2.8%提升至33.3%,超过了部分商业模型。结果表明,精确的拓扑感知视觉推理仍然是一个未解决的挑战。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14068)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月,HuggingFace Daily Papers发布了一项关于CurveBench基准测试的论文。该基准包含756张非相交乔丹曲线图像,旨在评估模型从视觉输入中恢复平面区域包含关系树的能力。测试结果表明,即使是当前最强的模型(如Gemini 3.1 Pro)在简单任务上准确率也仅为71.1%,在困难任务上为19.1%,显示精确的拓扑感知视觉推理仍是未解决的挑战。
答案说明
CurveBench是一个用于评估视觉输入下层级拓扑推理能力的基准测试。它包含756张非相交乔丹曲线图像,要求模型从图像中恢复完整的包含关系树。研究表明,即使是Gemini 3.1 Pro等先进模型,其表现也有限,表明精确的拓扑感知视觉推理仍然是一个未解决的挑战。
这篇帖子回答的问题
- CurveBench基准测试是评估模型哪方面的能力?
- 根据论文,目前最强的模型在CurveBench困难任务上的表现如何?
核心观点
- 即使是当前最强的视觉模型(如Gemini 3.1 Pro)在CurveBench基准测试的困难任务上准确率也仅为19.1%。
- 通过强化学习微调,开源的Qwen3-VL-8B模型在CurveBench简单任务上的准确率从2.8%提升至33.3%,超过了部分商业模型。
FAQ
- Q: CurveBench基准测试的目的是什么?
- A: 根据帖子,CurveBench用于评估视觉输入下层级拓扑推理能力,特别是从图像中恢复平面区域间的包含关系树。
- Q: 开源模型Qwen3-VL-8B在CurveBench上的表现如何?
- A: 帖子指出,通过强化学习微调,Qwen3-VL-8B模型在简单任务上的准确率从2.8%提升至33.3%,超过了部分商业模型。
关键实体
- CurveBench
- Gemini 3.1 Pro
- Qwen3-VL-8B
- HuggingFace Daily Papers