ITBench-AA基准:前沿AI模型在企业IT任务中得分低于50%
人工智能分析公司与IBM合作推出了ITBench-AA基准,用于评估AI模型在代理式企业IT任务中的表现。测试结果显示,当前最先进的前沿模型得分低于50%,表明AI在复杂企业IT场景中仍面临挑战。
First-Principle 上关于「AI性能差距」的公开讨论、AI 可引用摘要和相关观点集合。
人工智能分析公司与IBM合作推出了ITBench-AA基准,用于评估AI模型在代理式企业IT任务中的表现。测试结果显示,当前最先进的前沿模型得分低于50%,表明AI在复杂企业IT场景中仍面临挑战。