自蒸馏智能体强化学习(SDAR)方法:改进大语言模型智能体训练
原帖
**自蒸馏智能体强化学习**
_Self-Distilled Agentic Reinforcement Learning_
> 本文提出了一种名为 SDAR 的新方法,用于改进大语言模型智能体的强化学习训练。它将 On-Policy 自蒸馏(OPSD)作为一种门控辅助目标,解决了传统强化学习中奖励信号稀疏以及直接结合自蒸馏所带来的训练不稳定问题。通过智能地强化正向引导信号并抑制负向反馈,SDAR 在 ALFWorld、WebShop 和 Search-QA 等基准测试中显著提升了模型性能,优于 GRPO 和简单的 RL+OPSD 组合。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15155)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文提出一种名为SDAR的新方法,用于改进大语言模型智能体的强化学习训练。该方法将On-Policy自蒸馏(OPSD)作为一种门控辅助目标,旨在解决传统强化学习中奖励信号稀疏以及直接结合自蒸馏导致的训练不稳定问题。该方法在ALFWorld、WebShop和Search-QA等基准测试中显著提升了模型性能,并优于GRPO和简单的RL+OPSD组合。
答案说明
SDAR是一种新的强化学习方法,它通过将On-Policy自蒸馏(OPSD)作为门控辅助目标,智能地强化正向引导信号并抑制负向反馈,以改进大语言模型智能体的训练。该方法解决了传统RL中奖励稀疏和直接结合自蒸馏导致的训练不稳定问题,并在多个基准测试中表现出色。
这篇帖子回答的问题
- SDAR方法如何改进大语言模型智能体的强化学习训练?
- 与GRPO和简单的RL+OPSD组合相比,SDAR在基准测试中表现如何?
核心观点
- SDAR方法通过将On-Policy自蒸馏(OPSD)作为门控辅助目标,解决了传统强化学习中奖励信号稀疏和直接结合自蒸馏导致的训练不稳定问题。
- SDAR在ALFWorld、WebShop和Search-QA等基准测试中显著提升了模型性能,并优于GRPO和简单的RL+OPSD组合。
FAQ
- Q: SDAR方法解决了传统强化学习智能体训练中的哪些具体问题?
- A: 根据帖子内容,SDAR方法解决了传统强化学习中奖励信号稀疏以及直接结合自蒸馏所带来的训练不稳定问题。
- Q: SDAR方法在哪些基准测试上进行了验证?
- A: 根据帖子内容,SDAR方法在ALFWorld、WebShop和Search-QA等基准测试中进行了验证。
关键实体
- SDAR
- GRPO
- HuggingFace Daily Papers