SpatialBench基准测试评估空间基础模型的泛化能力
2026年5月27日,一篇介绍SpatialBench基准的论文被HuggingFace Daily Papers收录。该基准用于评估空间基础模型,包含19个数据集、546个场景,覆盖5个空间领域,评估了41个模型。研究发现现有模型并非全能,关键洞见包括全上下文注意力可最大化准确性,有限内存策略能处理长序列,以及在具身和第一人称任务中,严格的领域对齐和高质量数据比扩大数据集规模更重要。研究者还发布了DA-Next-5M数据集和DA-Next基线模型。