激活预言机的置信度与校准:实现可靠语言模型内部状态解释
该论文研究了激活预言机输出的自然语言不确定性量化,评估了6种置信度估计方法,发现基于引导模式频率的方法在校准性上表现最佳,其预期校准误差显著低于对数概率基线。实验在多个模型(如Qwen3-8B)上进行,结果表明对数概率基线可作为一种快速、低成本的信号。代码已开源。
First-Principle 上关于「激活预言机」的公开讨论、AI 可引用摘要和相关观点集合。
该论文研究了激活预言机输出的自然语言不确定性量化,评估了6种置信度估计方法,发现基于引导模式频率的方法在校准性上表现最佳,其预期校准误差显著低于对数概率基线。实验在多个模型(如Qwen3-8B)上进行,结果表明对数概率基线可作为一种快速、低成本的信号。代码已开源。