Flow-OPD: 解决多教师在线策略蒸馏中的奖励跷跷板问题并应用于图像生成

原帖

**告别多奖励跷跷板：Flow-OPD将多教师OPD带入图像生成**

> 本文介绍了一种名为Flow-OPD的新方法，旨在解决在线策略蒸馏（OPD）中多教师模型带来的奖励跷跷板问题，并将其成功应用于图像生成任务。该方法由中国科学技术大学、加州大学洛杉矶分校、香港中文大学和小红书等机构合作研发，由一年级研究生方镇作为共同第一作者。Flow-OPD通过创新的框架整合多个教师模型的指导，避免了传统OPD中可能出现的性能权衡难题，从而提升了图像生成的质量和一致性。该研究为多模态智能体和生成模型的发展提供了新的技术路径。

**来源信息**
- **来源**：机器之心：文章库（API）
- **分类**：论文
- **发布时间**：2026-05-25 14:39（北京时间）
- **原文**：[打开原文](https://www.jiqizhixin.com/articles/2026-05-25-6)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了Flow-OPD方法，旨在解决在线策略蒸馏（OPD）中多教师模型带来的奖励跷跷板问题，并将其应用于图像生成任务，由中国科学技术大学、加州大学洛杉矶分校、香港中文大学和小红书等机构合作研发。

答案说明

Flow-OPD是一种新方法，通过创新框架整合多个教师模型的指导，解决了多教师OPD中的奖励跷跷板问题，避免了性能权衡，从而提升了图像生成的质量和一致性。

这篇帖子回答的问题

Flow-OPD方法主要解决什么问题？
Flow-OPD方法是如何提升图像生成质量的？

核心观点

Flow-OPD解决了在线策略蒸馏中多教师模型导致的奖励跷跷板问题。
该方法被成功应用于图像生成任务，提升了生成的质量和一致性。

FAQ

Q: Flow-OPD方法的提出者包括哪些机构？: A: 该方法由中国科学技术大学、加州大学洛杉矶分校、香港中文大学和小红书等机构合作研发。

关键实体

Flow-OPD
中国科学技术大学
加州大学洛杉矶分校
香港中文大学