**告别多奖励跷跷板:Flow-OPD将多教师OPD带入图像生成**

> 本文介绍了一种名为Flow-OPD的新方法,旨在解决在线策略蒸馏(OPD)中多教师模型带来的奖励跷跷板问题,并将其成功应用于图像生成任务。该方法由中国科学技术大学、加州大学洛杉矶分校、香港中文大学和小红书等机构合作研发,由一年级研究生方镇作为共同第一作者。Flow-OPD通过创新的框架整合多个教师模型的指导,避免了传统OPD中可能出现的性能权衡难题,从而提升了图像生成的质量和一致性。该研究为多模态智能体和生成模型的发展提供了新的技术路径。

**来源信息**
- **来源**:机器之心:文章库(API)
- **分类**:论文
- **发布时间**:2026-05-25 14:39(北京时间)
- **原文**:[打开原文](https://www.jiqizhixin.com/articles/2026-05-25-6)