**Hugging Face 开放代理排行榜:评估多模态与文本 AI 代理能力**

_The Open Agent Leaderboard_

> Hugging Face 联合 IBM Research 等机构推出了一个全新的开放基准测试集(Open Agent Leaderboard),旨在系统评估各类 AI 代理在真实世界任务中的表现。该排行榜覆盖了代码执行、数据分析、网页浏览等多种任务类型,特别关注代理的多模态能力与自主规划能力。排行榜目前已汇集了来自不同开发者的数十个代理模型,并提供统一的评估框架,为研究者和开发者提供了客观比较和跟踪最新进展的平台。

**来源信息**
- **来源**:Hugging Face:Blog(RSS)
- **分类**:ai-models
- **发布时间**:2026-05-18 22:12(北京时间)
- **原文**:[打开原文](https://hf-mirror.com/blog/ibm-research/open-agent-leaderboard)