**SafeDiffusion-R1:用于安全扩散模型后训练的在线奖励引导**

_SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training_

> 本文提出了一种新的在线强化学习框架,用于解决扩散模型在移除预训练中学到的不安全内容时面临的监督数据昂贵、离线方法导致灾难性遗忘和生成质量下降的问题。该方法名为SafeDiffusion-R1,采用群组相对策略优化(GRPO)进行后训练,并引入了一种基于CLIP嵌入空间特性的“引导奖励”机制,无需专门训练安全/不安全奖励模型。实验表明,该方法在大幅降低不安全内容生成比例和裸体检测数量的同时,提升了组合生成质量,并且其安全性泛化能力对跨多个伤害类别的域外不安全提示同样有效,达到了在不使用监督配对数据或奖励调整下的最先进性能。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18719)