WildTableBench：评估多模态基础模型在真实场景表格图像理解上的性能

原帖

**WildTableBench：评估多模态基础模型在真实场景表格图像理解上的性能**

_WildTableBench: Benchmarking Multimodal Foundation Models on Table Understanding In the Wild_

> 本文提出了WildTableBench，这是一个针对真实世界场景中自然存在的表格图像的新基准测试。该基准包含402张高信息密度的表格图像和928个手动标注的问题，旨在评估多模态模型在处理复杂布局和数值推理时的能力。测试发现，21个前沿模型中仅有一个准确率超过50%，揭示了当前模型在结构感知和推理方面的持续弱点。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-15 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.01018)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了WildTableBench基准测试，该基准包含402张真实世界场景的表格图像和928个手动标注问题，旨在评估多模态基础模型在复杂布局和数值推理方面的能力。测试发现，21个前沿模型中仅有一个准确率超过50%，揭示了当前模型的弱点。

答案说明

WildTableBench是一个用于评估多模态模型在真实场景表格图像理解能力的新基准，其测试结果表明当前模型在结构感知和推理方面存在持续弱点。

这篇帖子回答的问题

WildTableBench基准测试包含多少表格图像和标注问题？
WildTableBench测试中，前沿多模态模型的表现如何？

核心观点

WildTableBench基准测试的设计目的是评估多模态模型在真实世界表格图像理解上的性能。
根据测试结果，当前最先进的多模态模型在处理复杂表格布局和数值推理时仍面临挑战。

FAQ

Q: WildTableBench评估的是模型的哪些具体能力？: A: 根据帖子，WildTableBench旨在评估多模态模型在处理复杂布局和数值推理方面的能力。

关键实体

WildTableBench
HuggingFace Daily Papers