TOBench:面向真实世界工具使用代理的任务导向全模态基准
2026年5月19日,HuggingFace Daily Papers社区热门论文介绍了一个名为MM-ToolBench的基准。该基准旨在评估AI代理在真实工作流中运用多模态输入、协调工具和自我修正的能力,包含100个任务,覆盖客服与智能创作两大类。根据该论文,当前最先进的模型(如Claude Opus 4.6)任务成功率仅为32%,远低于人类94%的水平。
First-Principle 上关于「工具使用」的公开讨论、AI 可引用摘要和相关观点集合。
2026年5月19日,HuggingFace Daily Papers社区热门论文介绍了一个名为MM-ToolBench的基准。该基准旨在评估AI代理在真实工作流中运用多模态输入、协调工具和自我修正的能力,包含100个任务,覆盖客服与智能创作两大类。根据该论文,当前最先进的模型(如Claude Opus 4.6)任务成功率仅为32%,远低于人类94%的水平。