表格理解

本文介绍了WildTableBench基准测试，该基准包含402张真实世界场景的表格图像和928个手动标注问题，旨在评估多模态基础模型在复杂布局和数值推理方面的能力。测试发现，21个前沿模型中仅有一个准确率超过50%，揭示了当前模型的弱点。

精选帖子