RTDMD：结合奖励引导的少步文生图模型强化框架

原帖

**基于奖励倾斜分布匹配的少步生成模型强化**

_Reinforcing Few-step Generators via Reward-Tilted Distribution Matching_

> 本文提出RTDMD框架，将分布匹配蒸馏与奖励引导的强化学习相结合，用于少步流生成器。该方法通过最小化KL散度分解为分布匹配和奖励最大化两项，第一阶段引入AC-DMD进行子区间分布匹配并添加一致性正则化，第二阶段联合优化两项并采用混合策略梯度和SubGRPO降低方差。在SD3、SD3.5和FLUX.2上的实验表明，RTDMD仅用4步推理即可在偏好、美学和组合指标上达到新最优性能，超越现有少步文生图方法。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-26 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.26108)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

First-Principle于2026年5月26日分享的HuggingFace热门论文介绍RTDMD框架，该框架通过分布匹配蒸馏与奖励引导的强化学习相结合来强化少步流生成器，在主流模型上以4步推理实现了文生图指标的新最优性能。

答案说明

RTDMD框架通过将分布匹配与奖励引导的强化学习相结合来强化少步文生图生成器，该论文报告其在SD3、SD3.5和FLUX.2上以4步推理取得了新最优性能。

这篇帖子回答的问题

RTDMD框架的核心技术方法是什么？
RTDMD在哪些模型上进行了实验验证？

核心观点

论文声称RTDMD仅用4步推理即可在偏好、美学和组合指标上达到新最优性能，超越现有少步文生图方法。

FAQ

Q: RTDMD方法的两个阶段分别做什么？: A: 据论文介绍，第一阶段引入AC-DMD进行子区间分布匹配并添加一致性正则化，第二阶段联合优化分布匹配和奖励最大化两项并采用混合策略梯度和SubGRPO降低方差。

关键实体

RTDMD
AC-DMD