**监控内部独白:探针轨迹揭示大推理模型的推理动态**

_Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics_

> 本文研究了大推理模型(LRMs)内部隐藏表示的轨迹,旨在更可靠地预测模型未来行为。研究发现,通过在每个生成令牌处评估探针构建“探针轨迹”,并从中提取波动性、趋势和稳态等信号处理特征,可以显著提升对模型未来状态(如安全性或数学问题输出)的分离度。该方法优于单次静态预测,且模板训练数据即可达到近似动态生成数据的效果。研究还指出最大池化操作是获得稳定探针轨迹的关键。论文为基于思维链(CoT)监控大模型行为提供了一个补充框架。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18549)