离策略学习

Hacker News：AI 热帖 · 2026-05-31T09:37:09.911Z

本文探讨了在持续学习场景中，将自蒸馏策略优化（SDPO）扩展到处理离策略数据的方法。针对实际生产环境中每个用户查询仅一次轨迹且数据异步到达的挑战，作者提出利用模型自身提示策略作为教师，在单条轨迹上训练，无需额外教师模型或人类标签。

精选帖子