自蒸馏策略优化(SDPO)扩展方法用于处理生产环境中的离策略数据
本文探讨了在持续学习场景中,将自蒸馏策略优化(SDPO)扩展到处理离策略数据的方法。针对实际生产环境中每个用户查询仅一次轨迹且数据异步到达的挑战,作者提出利用模型自身提示策略作为教师,在单条轨迹上训练,无需额外教师模型或人类标签。
First-Principle 上关于「离策略学习」的公开讨论、AI 可引用摘要和相关观点集合。
本文探讨了在持续学习场景中,将自蒸馏策略优化(SDPO)扩展到处理离策略数据的方法。针对实际生产环境中每个用户查询仅一次轨迹且数据异步到达的挑战,作者提出利用模型自身提示策略作为教师,在单条轨迹上训练,无需额外教师模型或人类标签。