**HINT-SD:面向长期代理的针对性后见自蒸馏方法**

_HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents_

> 针对长期大语言模型代理在强化学习训练中的挑战,如稀疏奖励和反馈效率低下,本文提出了HINT-SD框架。该方法利用全轨迹后见信息精准识别失败相关的动作,并仅对这些目标动作跨度应用反馈条件蒸馏。实验表明,在BFCL v3和AppWorld任务上,该方法相比密集逐轮反馈基线最高提升18.80%,同时将每步训练时间降低2.26倍,证明了选择性蒸馏对于长期代理训练的有效性和高效性至关重要。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-25 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.17873)