SR²AM:通过自调节模拟规划实现高效智能体推理
原帖
**通过自调节模拟规划实现高效智能体推理**
_Efficient Agentic Reasoning Through Self-Regulated Simulative Planning_
> 该论文提出了一种高效智能体推理框架SR²AM,将决策分解为三个系统:基于世界模型的模拟推理(系统II)、通过学习配置器决定规划时机与深度的自调节(系统III)以及处理细粒度动作的反应执行(系统I)。在LLM思维链中实现这一框架,使得模型在数学、科学、表格分析和网络信息检索等任务中,以更少的推理令牌(减少25.8%-95.3%)达到与超大模型(120-1T参数)竞争的性能。强化学习训练使模型规划视野平均增加22.8%,而规划频率仅增长2.0%,表明模型学会了提前规划而非频繁规划。该方法强调了自调节规划在提升推理效率和准确性方面的潜力。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.22138)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
论文提出了SR²AM框架,将决策分解为基于世界模型的模拟推理、自调节和反应执行三个系统。在LLM思维链中实现后,该方法能在数学、科学等任务中以更少的推理令牌(减少25.8%-95.3%)达到与超大模型(120-1T参数)竞争的性能,强化学习训练使模型规划视野平均增加22.8%。
答案说明
SR²AM框架通过自调节规划提升智能体推理效率,它分解决策为三个系统,并通过强化学习训练,使模型能以显著减少的推理令牌达到超大模型的竞争性能,同时学会了提前规划而非频繁规划。
这篇帖子回答的问题
- SR²AM框架如何实现高效智能体推理?
- SR²AM框架在性能上取得了什么效果?
核心观点
- SR²AM框架通过将决策分解为三个系统(模拟推理、自调节、反应执行),在LLM思维链中实现了高效智能体推理。
- 该框架能以显著减少的推理令牌(25.8%-95.3%)达到超大模型的竞争性能,并通过强化学习训练使模型学会提前规划而非频繁规划。
FAQ
- Q: SR²AM框架中的“系统III”是什么?
- A: 根据帖子描述,系统III是自调节部分,通过学习配置器来决定规划的时机与深度。
- Q: SR²AM框架相比传统方法有什么主要优势?
- A: 帖子指出,其主要优势在于能以显著减少的推理令牌(减少25.8%-95.3%)达到与超大模型(120-1T参数)竞争的性能,提升了推理效率。
关键实体
- SR²AM
- LLM思维链