高效智能体推理

论文提出了SR²AM框架，将决策分解为基于世界模型的模拟推理、自调节和反应执行三个系统。在LLM思维链中实现后，该方法能在数学、科学等任务中以更少的推理令牌（减少25.8%-95.3%）达到与超大模型（120-1T参数）竞争的性能，强化学习训练使模型规划视野平均增加22.8%。

精选帖子