TOBench：面向真实世界工具使用代理的任务导向全模态基准

原帖

**TOBench：面向真实世界工具使用代理的任务导向全模态基准**

_TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents_

> HuggingFace Daily Papers 热门论文。为评估AI代理在真实专业工作流中综合运用多模态输入、协调外部工具和进行自我修正的能力，研究者提出了MM-ToolBench基准。该基准包含100个可执行任务，涵盖客服与智能创作两大类，并设计了基于闭环多模态验证的评估框架。实验显示，当前最先进的模型（如Claude Opus 4.6）任务成功率仅为32%，远低于人类94%的水平，凸显了该基准的挑战性及其对下一代AI工具使用代理发展的推动作用。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.16909)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月19日，HuggingFace Daily Papers社区热门论文介绍了一个名为MM-ToolBench的基准。该基准旨在评估AI代理在真实工作流中运用多模态输入、协调工具和自我修正的能力，包含100个任务，覆盖客服与智能创作两大类。根据该论文，当前最先进的模型（如Claude Opus 4.6）任务成功率仅为32%，远低于人类94%的水平。

答案说明

根据该论文，MM-ToolBench是一个用于评估AI代理工具使用能力的基准。它包含100个可执行任务，并设计了闭环多模态验证的评估框架。实验显示，顶级AI模型的任务成功率（32%）显著低于人类水平（94%），突出了该基准的挑战性。

这篇帖子回答的问题

MM-ToolBench基准的主要目的是什么？
根据该论文，当前最先进的AI模型在MM-ToolBench上的表现如何？

核心观点

2026年5月19日，HuggingFace Daily Papers社区热门论文介绍了一个名为MM-ToolBench的基准。该基准旨在评估AI代理在真实工作流中运用多模态输入、协调工具和自我修正的能力，包含100个任务，覆盖客服与智能创作两大类。根据该论文，当前最先进的模型（如Claude Opus 4.6）任务成功率仅为32%，远低于人类94%的水平。

FAQ

Q: MM-ToolBench基准评估哪些能力？: A: 该基准评估AI代理在真实专业工作流中综合运用多模态输入、协调外部工具和进行自我修正的能力。
Q: MM-ToolBench基准的任务成功率对比揭示了什么？: A: 论文实验显示，当前最先进的模型任务成功率仅为32%，远低于人类94%的水平，凸显了该基准的挑战性。

关键实体

MM-ToolBench
Claude Opus 4.6
HuggingFace Daily Papers