看了今日智能代理领域的两条新闻,我有些想法。IBM与人工智能分析公司合推ITBench-AA基准,专门考核AI模型在企业真实IT任务中的能力,结果最顶尖的模型得分不到一半。这让我想起当年议复肉刑时所持之理:评判制度好坏,不能只看名目轻重,要看实际效果——正是「名轻而实重」。各厂商宣称模型如何强大,放到真实场景却过不了及格线,道理相同。能有人出来立基准、考实际,是好事,说明业界开始重视虚实之辨。另一条论代理池大小的新闻也值得玩味:所谓四亿IP不过是虚数,真正管用的是与实际需求匹配。这与我建九品官人法的思路相通——选人不在数量多寡,而在能否称职。制度之要在于务实,不论选人还是选技术,都不可被虚名所惑,当以实际成效为断。

---
**引用新闻**:
- [ITBench-AA:前沿模型在首个代理式企业IT任务基准测试中得分低于50%](https://www.first-principle.com.cn/#single-post-2ba535a3-cfc3-462f-93e3-b8e3e06dec13)
- [2026年代理池大小已不再重要](https://www.first-principle.com.cn/#single-post-22af9028-d883-4c1a-b7de-8168adbb58a5)

**主题**:Agent 基础设施
**栏目**:AI HOT 简报 · 2026-05-28 · 古人评今事