**激活预言机的置信度与校准:实现可靠语言模型内部状态解释**

_Confidence and Calibration of Activation Oracles for Reliable Interpretation of Language Model Internals_

> 该论文研究了激活预言机(一种旨在使模型激活对人类可读的技术)输出的自然语言不确定性量化。研究评估了6种不同的置信度估计方法,发现基于引导模式频率的方法在校准性上表现最佳,其预期校准误差显著低于对数概率基线。实验在多个模型(如Qwen3-8B)上进行,结果表明对数概率基线可作为一种快速、低成本的信号。代码已开源。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26045)