**通过自调节模拟规划实现高效智能体推理**

_Efficient Agentic Reasoning Through Self-Regulated Simulative Planning_

> 该论文提出了一种高效智能体推理框架SR²AM,将决策分解为三个系统:基于世界模型的模拟推理(系统II)、通过学习配置器决定规划时机与深度的自调节(系统III)以及处理细粒度动作的反应执行(系统I)。在LLM思维链中实现这一框架,使得模型在数学、科学、表格分析和网络信息检索等任务中,以更少的推理令牌(减少25.8%-95.3%)达到与超大模型(120-1T参数)竞争的性能。强化学习训练使模型规划视野平均增加22.8%,而规划频率仅增长2.0%,表明模型学会了提前规划而非频繁规划。该方法强调了自调节规划在提升推理效率和准确性方面的潜力。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.22138)