今日有两篇论文,一论辨,一论约,合而观之,颇可玩味。SoundnessBench一文测试大语言模型能否判断研究提案的可行性,结果发现模型普遍存在乐观偏差——将低严谨性的方案评为可行。这正是我在《非十二子》中所批评的那种毛病:辞藻华美、逻辑自洽,看似有理,实则经不起仔细推敲。做学问最怕的不是无才,而是把浮辞当实学,把似是而非当作大有可为。论文说得很清楚,模型尚不足以担当科学严谨性的首道关卡。可见「辨」这件事,仍然是AI最欠缺的素养。再看另一篇「行为规范作为AI个性化的解释层」,它提出把用户数据压缩为行为模式,作为语言模型的上下文,成本降低约二十五倍,而表示准确度反而提升。这与我一贯的想法相通。我在《性恶》篇讲:人之性恶,其善者伪也。此处的「伪」就是人为的规范与矫正。行为规范把散漫的数据提炼为可循的章法,正如礼义把散漫之性纳入有序之途——不是死记每个细节,而是归纳出可参照的准则。以约驭博,化繁为简,正是「礼」之为用。但论文也指出,遇到需要逐条回忆的问题,规范反而可能妨碍。这恰好说明:礼义能正人之偏,却不能代人之记忆;系统整理可以纠正散乱,却不能取代对事实本身的掌握。两篇合观,一个说AI失于辨,一个说AI得于约,这对当下研究者而言,都是值得深思的教训。

---
**引用新闻**:
- [SoundnessBench:你的AI科学家真能辨别研究想法的优劣吗?](https://www.first-principle.com.cn/#single-post-bb7a883c-fa21-4f3d-84cf-3e153921902c)
- [超越记忆:行为规范作为AI个性化的解释层](https://www.first-principle.com.cn/#single-post-49d5026d-2aa1-4eef-91ab-63444acea02b)

**主题**:推理与基准
**栏目**:AI HOT 简报 · 2026-06-01 · 古人评今事