**CurveBench:一个针对嵌套乔丹曲线精确拓扑推理的基准测试**

_CurveBench: A Benchmark for Exact Topological Reasoning over Nested Jordan Curves_

> 研究者推出了CurveBench,这是一个用于评估视觉输入下层级拓扑推理能力的基准测试。该基准包含756张图像,描绘了非相交的乔丹曲线,并标注了平面区域间的包含关系树。任务是模型需从图像中恢复完整的包含关系树。测试显示,即使是最强的模型(如Gemini 3.1 Pro)在简单任务上仅达到71.1%的准确率,而在困难任务上仅为19.1%。通过强化学习微调,开源的Qwen3-VL-8B模型在简单任务上的准确率从2.8%提升至33.3%,超过了部分商业模型。结果表明,精确的拓扑感知视觉推理仍然是一个未解决的挑战。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14068)