**Flash-GRPO:通过单步策略优化实现视频扩散模型的高效对齐**

_Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization_

> 针对视频扩散模型对齐过程中的计算瓶颈,本文提出Flash-GRPO框架。该框架采用单步训练,通过等时分组消除时间步混淆方差,以及时间梯度校正来中和时间依赖性缩放因子,从而在低计算预算下实现了超越全轨迹训练的对齐质量和更高的训练效率。在1.3B到14B参数模型上的实验证明了其有效性,实现了显著的加速,并保持了稳定性和最先进的对齐质量。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15980)