**TOBench:面向真实世界工具使用代理的任务导向全模态基准**

_TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents_

> HuggingFace Daily Papers 热门论文。为评估AI代理在真实专业工作流中综合运用多模态输入、协调外部工具和进行自我修正的能力,研究者提出了MM-ToolBench基准。该基准包含100个可执行任务,涵盖客服与智能创作两大类,并设计了基于闭环多模态验证的评估框架。实验显示,当前最先进的模型(如Claude Opus 4.6)任务成功率仅为32%,远低于人类94%的水平,凸显了该基准的挑战性及其对下一代AI工具使用代理发展的推动作用。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.16909)