**UniGRPO:用于推理驱动视觉生成的统一策略优化**

_UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation_

> 字节跳动Seed团队提出UniGRPO,一个用于交错生成(文本与图像)的统一强化学习框架。该框架采用GRPO算法联合优化文本和图像生成策略,并针对视觉合成引入了FlowGRPO的两项关键改进:移除无分类器引导以保持线性rollout(便于扩展到多轮交互),以及用MSE惩罚替代KL惩罚以更有效防止奖励作弊。实验证明,该统一训练方案能通过推理显著提升图像生成质量,为未来交错生成模型的后训练提供了稳健且可扩展的基础。

**来源信息**
- **来源**:字节 Seed:Research Papers(网页内嵌数据)
- **分类**:论文
- **原文**:[打开原文](https://arxiv.org/pdf/2603.23500)