**ITBench-AA:前沿模型在首个代理式企业IT任务基准测试中得分低于50%**

_ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM_

> 人工智能分析公司与IBM合作推出了ITBench-AA基准,专门用于评估AI模型在代理式企业IT任务(如自动化故障排查、资源优化等)中的表现。测试结果显示,即使是当前最先进的前沿模型,其得分也低于50%,表明现有AI在复杂企业IT场景中仍面临巨大挑战。这一基准为行业提供了标准化评估工具,凸显了AI在实际企业应用中的差距。

**来源信息**
- **来源**:Hugging Face:Blog(RSS)
- **分类**:论文
- **发布时间**:2026-05-28 01:20(北京时间)
- **原文**:[打开原文](https://hf-mirror.com/blog/ibm-research/itbench-aa)