**基于奖励倾斜分布匹配的少步生成模型强化**

_Reinforcing Few-step Generators via Reward-Tilted Distribution Matching_

> 本文提出RTDMD框架,将分布匹配蒸馏与奖励引导的强化学习相结合,用于少步流生成器。该方法通过最小化KL散度分解为分布匹配和奖励最大化两项,第一阶段引入AC-DMD进行子区间分布匹配并添加一致性正则化,第二阶段联合优化两项并采用混合策略梯度和SubGRPO降低方差。在SD3、SD3.5和FLUX.2上的实验表明,RTDMD仅用4步推理即可在偏好、美学和组合指标上达到新最优性能,超越现有少步文生图方法。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26108)