**LLM能否自省?现实检验**

_Can LLMs Introspect? A Reality Check_

> 该论文挑战了近期关于大型语言模型具备自省能力的结论。作者基于人类元认知研究的经验指出,现有证据可能过于仓促,因为需要区分真正的自省与基于表面线索的模式匹配。他们重新检验了两种评估范式:一是模型检测内部状态是否被篡改,结果发现模型无法可靠区分内部干预与输入操作;二是模型预测自身隐藏状态的标签,发现仅访问输入的分类器性能与模型自身预测相当。进一步引入的控制实验显示,当模型无法依赖任务语义时,其表现接近随机水平。综合结果表明,当前证据不足以证明LLM具有元认知监控能力。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26242)