**AI 模型信心不足的罕见案例:Opus 4.6 预测代理分析**

_Some rare examples of AIs being underconfident_

> 本文探讨了 AI 模型中一个罕见但值得注意的现象:信心不足。与普遍关注的过度自信相反,专家审计员在 BTF-2 预测基准测试中发现,Claude Opus 4.6 代理在推导出正确答案、列出计算过程并引用正确先例后,却分配了一个与其分析不一致的概率。例如,在预测纽约市长选举投票数时,Opus 正确计算出结果应超过 130 万,但最终仅给出 25% 的概率,而实际结果远超预期。类似案例还包括联合国安理会决议、阿根廷比索汇率和美委会谈等。这种现象可能源于 RLHF 训练中对过度自信的压制,导致模型在证据充分时仍避免做出确定性结论。尽管这可能是一种安全特性,防止模型在异常证据下出错,但也影响了预测准确性。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:ai-models
- **发布时间**:2026-05-26 22:15(北京时间)
- **原文**:[打开原文](https://futuresearch.ai/blog/ais-underconfident)