RLHF训练

Hacker News：AI 热帖 · 2026-05-31T09:37:08.065Z

本文探讨了AI模型中罕见的信心不足现象。专家审计员在BTF-2预测基准测试中发现，Claude Opus 4.6代理在推导出正确答案后，仍分配了与分析不一致的概率。这种现象可能源于RLHF训练中对过度自信的压制。

精选帖子