**KVPO:基于语义KV探索的ODE原生GRPO,用于自回归视频生成对齐**

_KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration_

> 该研究提出KVPO,一个针对流式自回归视频生成器与人类偏好对齐的ODE原生在线组相对策略优化框架。其核心创新在于:1) 探索方式上,将多样性探索的源头从随机噪声转移至历史KV缓存,通过随机路由历史KV条目,在保持数据流形一致性的同时构建语义多样化的生成分支;2) 策略建模上,引入基于轨迹速度能量的速度场代理策略,在流匹配速度空间中量化分支似然性,并生成与原生ODE公式完全一致的奖励加权对比目标。在多个蒸馏AR视频生成器上的实验表明,该方法在单提示短视频和多提示长视频设置中,均能提升视觉质量、运动质量和文本-视频对齐度。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14278)