大语言模型代理

HINT-SD：面向长期代理的针对性后见自蒸馏方法

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:14.307Z

针对长期大语言模型代理强化学习训练中稀疏奖励和反馈效率低下的挑战，HINT-SD框架提出利用全轨迹后见信息精准识别失败相关的动作，并仅对这些目标动作跨度应用反馈条件蒸馏。实验表明，在BFCL v3和AppWorld任务上，该方法相比密集逐轮反馈基线最高提升18.80%，同时将每步训练时间降低2.26倍。

精选帖子

HINT-SD：面向长期代理的针对性后见自蒸馏方法

相关作者