ITBench-AA基准：前沿AI模型在企业IT任务中得分低于50%

原帖

**ITBench-AA：前沿模型在首个代理式企业IT任务基准测试中得分低于50%**

_ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM_

> 人工智能分析公司与IBM合作推出了ITBench-AA基准，专门用于评估AI模型在代理式企业IT任务（如自动化故障排查、资源优化等）中的表现。测试结果显示，即使是当前最先进的前沿模型，其得分也低于50%，表明现有AI在复杂企业IT场景中仍面临巨大挑战。这一基准为行业提供了标准化评估工具，凸显了AI在实际企业应用中的差距。

**来源信息**
- **来源**：Hugging Face：Blog（RSS）
- **分类**：论文
- **发布时间**：2026-05-28 01:20（北京时间）
- **原文**：[打开原文](https://hf-mirror.com/blog/ibm-research/itbench-aa)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

人工智能分析公司与IBM合作推出了ITBench-AA基准，用于评估AI模型在代理式企业IT任务中的表现。测试结果显示，当前最先进的前沿模型得分低于50%，表明AI在复杂企业IT场景中仍面临挑战。

答案说明

ITBench-AA是首个针对代理式企业IT任务的基准测试。根据帖子，即使是前沿AI模型，其得分也低于50%，显示在自动化故障排查、资源优化等企业IT任务中，现有AI的能力仍有较大提升空间。

这篇帖子回答的问题

ITBench-AA基准测试是什么？
前沿AI模型在ITBench-AA基准上的表现如何？

核心观点

ITBench-AA是首个用于评估AI在代理式企业IT任务（如故障排查、资源优化）表现的基准。
帖子称，当前最先进的前沿AI模型在该基准上的得分低于50%，表明在复杂企业IT场景中存在差距。

FAQ

Q: ITBench-AA基准由谁推出？: A: 根据帖子，ITBench-AA基准由人工智能分析公司与IBM合作推出。
Q: 前沿AI模型在ITBench-AA基准上的得分是多少？: A: 帖子指出，即使是当前最先进的前沿模型，其得分也低于50%。

关键实体

ITBench-AA
人工智能分析公司
IBM