工具使用

TOBench：面向真实世界工具使用代理的任务导向全模态基准

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:23.269Z

2026年5月19日，HuggingFace Daily Papers社区热门论文介绍了一个名为MM-ToolBench的基准。该基准旨在评估AI代理在真实工作流中运用多模态输入、协调工具和自我修正的能力，包含100个任务，覆盖客服与智能创作两大类。根据该论文，当前最先进的模型（如Claude Opus 4.6）任务成功率仅为32%，远低于人类94%的水平。

精选帖子

TOBench：面向真实世界工具使用代理的任务导向全模态基准

相关作者