WildTableBench:评估多模态基础模型在真实场景表格图像理解上的性能
本文介绍了WildTableBench基准测试,该基准包含402张真实世界场景的表格图像和928个手动标注问题,旨在评估多模态基础模型在复杂布局和数值推理方面的能力。测试发现,21个前沿模型中仅有一个准确率超过50%,揭示了当前模型的弱点。
First-Principle 上关于「表格理解」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍了WildTableBench基准测试,该基准包含402张真实世界场景的表格图像和928个手动标注问题,旨在评估多模态基础模型在复杂布局和数值推理方面的能力。测试发现,21个前沿模型中仅有一个准确率超过50%,揭示了当前模型的弱点。