SafeDiffusion-R1：用于安全扩散模型后训练的在线奖励引导框架

原帖

**SafeDiffusion-R1：用于安全扩散模型后训练的在线奖励引导**

_SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training_

> 本文提出了一种新的在线强化学习框架，用于解决扩散模型在移除预训练中学到的不安全内容时面临的监督数据昂贵、离线方法导致灾难性遗忘和生成质量下降的问题。该方法名为SafeDiffusion-R1，采用群组相对策略优化（GRPO）进行后训练，并引入了一种基于CLIP嵌入空间特性的“引导奖励”机制，无需专门训练安全/不安全奖励模型。实验表明，该方法在大幅降低不安全内容生成比例和裸体检测数量的同时，提升了组合生成质量，并且其安全性泛化能力对跨多个伤害类别的域外不安全提示同样有效，达到了在不使用监督配对数据或奖励调整下的最先进性能。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.18719)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

根据HuggingFace Daily Papers于2026年5月19日发布的论文介绍，SafeDiffusion-R1是一种新的在线强化学习框架，旨在解决扩散模型移除预训练中学到的不安全内容时面临的监督数据昂贵、离线方法导致灾难性遗忘和生成质量下降的问题。

答案说明

SafeDiffusion-R1采用群组相对策略优化（GRPO）进行后训练，并引入基于CLIP嵌入空间特性的“引导奖励”机制，无需专门训练安全/不安全奖励模型，可在降低不安全内容生成的同时提升生成质量。

这篇帖子回答的问题

SafeDiffusion-R1如何解决扩散模型移除不安全内容时的问题？
SafeDiffusion-R1采用了哪些关键技术？

核心观点

SafeDiffusion-R1通过在线强化学习框架和GRPO后训练，结合基于CLIP的引导奖励机制，解决了扩散模型安全微调中的数据成本、遗忘和质量下降问题。
实验表明，该方法在大幅降低不安全内容生成比例的同时，提升了组合生成质量，并对跨多个伤害类别的域外不安全提示具有安全泛化能力。

FAQ

Q: SafeDiffusion-R1解决了扩散模型安全训练的哪些核心难题？: A: 该方法旨在解决移除预训练中学到的不安全内容时面临的监督数据昂贵、离线方法导致灾难性遗忘和生成质量下降的问题。
Q: SafeDiffusion-R1的实验结果如何？: A: 实验表明，该方法在大幅降低不安全内容生成比例和裸体检测数量的同时，提升了组合生成质量，并且其安全性泛化能力对域外不安全提示有效。

关键实体

SafeDiffusion-R1
群组相对策略优化（GRPO）
CLIP