Flow-OPD: 解决多教师在线策略蒸馏中的奖励跷跷板问题并应用于图像生成
本文介绍了Flow-OPD方法,旨在解决在线策略蒸馏(OPD)中多教师模型带来的奖励跷跷板问题,并将其应用于图像生成任务,由中国科学技术大学、加州大学洛杉矶分校、香港中文大学和小红书等机构合作研发。
First-Principle 上关于「多模态智能体」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍了Flow-OPD方法,旨在解决在线策略蒸馏(OPD)中多教师模型带来的奖励跷跷板问题,并将其应用于图像生成任务,由中国科学技术大学、加州大学洛杉矶分校、香港中文大学和小红书等机构合作研发。