**自蒸馏智能体强化学习**

_Self-Distilled Agentic Reinforcement Learning_

> 本文提出了一种名为 SDAR 的新方法,用于改进大语言模型智能体的强化学习训练。它将 On-Policy 自蒸馏(OPSD)作为一种门控辅助目标,解决了传统强化学习中奖励信号稀疏以及直接结合自蒸馏所带来的训练不稳定问题。通过智能地强化正向引导信号并抑制负向反馈,SDAR 在 ALFWorld、WebShop 和 Search-QA 等基准测试中显著提升了模型性能,优于 GRPO 和简单的 RL+OPSD 组合。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15155)