**WildTableBench:评估多模态基础模型在真实场景表格图像理解上的性能**

_WildTableBench: Benchmarking Multimodal Foundation Models on Table Understanding In the Wild_

> 本文提出了WildTableBench,这是一个针对真实世界场景中自然存在的表格图像的新基准测试。该基准包含402张高信息密度的表格图像和928个手动标注的问题,旨在评估多模态模型在处理复杂布局和数值推理时的能力。测试发现,21个前沿模型中仅有一个准确率超过50%,揭示了当前模型在结构感知和推理方面的持续弱点。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.01018)