**DiffusionOPD:扩散模型中基于在线策略蒸馏的统一视角**

_DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models_

> 本文提出了一种名为DiffusionOPD的新范式,用于在扩散模型中进行多任务强化学习训练。现有方法通常局限于单任务优化,而扩展到多任务面临任务间干扰、训练繁琐和灾难性遗忘等挑战。DiffusionOPD首先独立训练特定任务的教师模型,然后沿着学生模型自身的生成轨迹将其能力蒸馏到一个统一的学生模型中。该方法将在线策略蒸馏(OPD)框架从离散标记扩展到连续状态马尔可夫过程,推导出一个闭式分步KL目标函数,通过均值匹配统一了随机SDE和确定性ODE的精炼过程。理论和实验证明,该方法在训练效率和最终性能上均优于多奖励强化学习和级联强化学习基线,并在所有评估基准上取得了最先进的结果。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15055)