**修改强化学习以在生产轨迹上训练模型**

_Modifying RL to train models on production traces_

> 本文探讨了在持续学习场景中,如何将自蒸馏策略优化(SDPO)方法扩展到处理离策略数据。传统强化学习方法(如GRPO)依赖于同一任务的多次采样,而实际生产环境中每个用户查询只有一次轨迹,且数据是异步到达的离策略数据。作者提出了一种扩展的SDPO方法,通过利用模型自身的提示策略作为教师,在单条轨迹上进行训练,解决了离策略数据带来的挑战。该方法无需额外的教师模型或人类标签,仅通过反向KL散度更新策略,使模型能从真实生产数据中持续学习。

**来源信息**
- **来源**:Hacker News:AI 热帖
- **分类**:论文
- **发布时间**:2026-05-28 01:10(北京时间)
- **原文**:[打开原文](https://trajectory.ai/field-notes/scaling-sdpo)