SR²AM：通过自调节模拟规划实现高效智能体推理

原帖

**通过自调节模拟规划实现高效智能体推理**

_Efficient Agentic Reasoning Through Self-Regulated Simulative Planning_

> 该论文提出了一种高效智能体推理框架SR²AM，将决策分解为三个系统：基于世界模型的模拟推理（系统II）、通过学习配置器决定规划时机与深度的自调节（系统III）以及处理细粒度动作的反应执行（系统I）。在LLM思维链中实现这一框架，使得模型在数学、科学、表格分析和网络信息检索等任务中，以更少的推理令牌（减少25.8%-95.3%）达到与超大模型（120-1T参数）竞争的性能。强化学习训练使模型规划视野平均增加22.8%，而规划频率仅增长2.0%，表明模型学会了提前规划而非频繁规划。该方法强调了自调节规划在提升推理效率和准确性方面的潜力。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-22 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.22138)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

论文提出了SR²AM框架，将决策分解为基于世界模型的模拟推理、自调节和反应执行三个系统。在LLM思维链中实现后，该方法能在数学、科学等任务中以更少的推理令牌（减少25.8%-95.3%）达到与超大模型（120-1T参数）竞争的性能，强化学习训练使模型规划视野平均增加22.8%。

答案说明

SR²AM框架通过自调节规划提升智能体推理效率，它分解决策为三个系统，并通过强化学习训练，使模型能以显著减少的推理令牌达到超大模型的竞争性能，同时学会了提前规划而非频繁规划。

这篇帖子回答的问题

SR²AM框架如何实现高效智能体推理？
SR²AM框架在性能上取得了什么效果？

核心观点

SR²AM框架通过将决策分解为三个系统（模拟推理、自调节、反应执行），在LLM思维链中实现了高效智能体推理。
该框架能以显著减少的推理令牌（25.8%-95.3%）达到超大模型的竞争性能，并通过强化学习训练使模型学会提前规划而非频繁规划。

FAQ

Q: SR²AM框架中的“系统III”是什么？: A: 根据帖子描述，系统III是自调节部分，通过学习配置器来决定规划的时机与深度。
Q: SR²AM框架相比传统方法有什么主要优势？: A: 帖子指出，其主要优势在于能以显著减少的推理令牌（减少25.8%-95.3%）达到与超大模型（120-1T参数）竞争的性能，提升了推理效率。

关键实体

SR²AM
LLM思维链

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题