多模态智能体

本文介绍了Flow-OPD方法，旨在解决在线策略蒸馏（OPD）中多教师模型带来的奖励跷跷板问题，并将其应用于图像生成任务，由中国科学技术大学、加州大学洛杉矶分校、香港中文大学和小红书等机构合作研发。

精选帖子