字节Seed团队提出UniGRPO统一强化学习框架，用于推理驱动的文本与图像交错生成

原帖

**UniGRPO：用于推理驱动视觉生成的统一策略优化**

_UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation_

> 字节跳动Seed团队提出UniGRPO，一个用于交错生成（文本与图像）的统一强化学习框架。该框架采用GRPO算法联合优化文本和图像生成策略，并针对视觉合成引入了FlowGRPO的两项关键改进：移除无分类器引导以保持线性rollout（便于扩展到多轮交互），以及用MSE惩罚替代KL惩罚以更有效防止奖励作弊。实验证明，该统一训练方案能通过推理显著提升图像生成质量，为未来交错生成模型的后训练提供了稳健且可扩展的基础。

**来源信息**
- **来源**：字节 Seed：Research Papers（网页内嵌数据）
- **分类**：论文
- **原文**：[打开原文](https://arxiv.org/pdf/2603.23500)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

First-Principle发布的帖子介绍，字节跳动Seed团队提出了UniGRPO，一个采用GRPO算法联合优化文本和图像生成策略的统一强化学习框架，旨在通过推理提升视觉生成质量。

答案说明

UniGRPO是字节跳动Seed团队提出的统一强化学习框架，采用GRPO算法优化交错文本与图像生成。该框架引入FlowGRPO的两项改进：移除无分类器引导以保持线性rollout便于扩展，以及用MSE惩罚替代KL惩罚防止奖励作弊，以提升图像生成质量。

这篇帖子回答的问题

UniGRPO框架采用了哪些关键改进来优化视觉生成？

核心观点

字节Seed团队的UniGRPO框架通过统一训练方案，能够通过推理显著提升图像生成质量。

关键实体

字节跳动Seed团队
UniGRPO