探针轨迹如何揭示大推理模型的内部推理动态

原帖

**监控内部独白：探针轨迹揭示大推理模型的推理动态**

_Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics_

> 本文研究了大推理模型（LRMs）内部隐藏表示的轨迹，旨在更可靠地预测模型未来行为。研究发现，通过在每个生成令牌处评估探针构建“探针轨迹”，并从中提取波动性、趋势和稳态等信号处理特征，可以显著提升对模型未来状态（如安全性或数学问题输出）的分离度。该方法优于单次静态预测，且模板训练数据即可达到近似动态生成数据的效果。研究还指出最大池化操作是获得稳定探针轨迹的关键。论文为基于思维链（CoT）监控大模型行为提供了一个补充框架。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.18549)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

一篇关于大推理模型（LRMs）的研究指出，通过在每个生成令牌处评估探针构建“探针轨迹”，并从中提取信号处理特征，可以更可靠地预测模型的未来行为（如安全性或数学问题输出）。

答案说明

该研究提出，通过分析大推理模型内部隐藏表示的探针轨迹，并提取波动性、趋势等信号处理特征，可以显著提升对模型未来状态的预测能力，且该方法优于单次静态预测。

这篇帖子回答的问题

如何更可靠地预测大推理模型（LRMs）的未来行为？

核心观点

从探针轨迹中提取信号处理特征的方法，其预测大推理模型未来状态的能力优于单次静态预测方法。

关键实体

大推理模型
探针轨迹
思维链