Flash-GRPO：通过单步策略优化实现视频扩散模型的高效对齐

原帖

**Flash-GRPO：通过单步策略优化实现视频扩散模型的高效对齐**

_Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization_

> 针对视频扩散模型对齐过程中的计算瓶颈，本文提出Flash-GRPO框架。该框架采用单步训练，通过等时分组消除时间步混淆方差，以及时间梯度校正来中和时间依赖性缩放因子，从而在低计算预算下实现了超越全轨迹训练的对齐质量和更高的训练效率。在1.3B到14B参数模型上的实验证明了其有效性，实现了显著的加速，并保持了稳定性和最先进的对齐质量。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-18 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.15980)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

针对视频扩散模型对齐的计算瓶颈，Flash-GRPO框架通过单步训练、等时分组消除时间步混淆方差、以及时间梯度校正，在低计算预算下实现了超越全轨迹训练的对齐质量和更高的训练效率。

答案说明

Flash-GRPO是一种用于视频扩散模型对齐的框架，它通过单步训练和特定的技术改进（等时分组、时间梯度校正），在降低计算成本的同时，提升了对齐质量和训练效率，并在1.3B到14B参数模型上验证了其有效性。

这篇帖子回答的问题

Flash-GRPO是如何解决视频扩散模型对齐过程中的计算瓶颈问题的？

核心观点

Flash-GRPO框架采用单步训练，通过等时分组和时间梯度校正技术，在低计算预算下实现了优于传统全轨迹训练方法的对齐质量和训练效率。

关键实体

Flash-GRPO