KVPO：基于语义KV探索的ODE原生GRPO框架用于自回归视频生成对齐

原帖

**KVPO：基于语义KV探索的ODE原生GRPO，用于自回归视频生成对齐**

_KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration_

> 该研究提出KVPO，一个针对流式自回归视频生成器与人类偏好对齐的ODE原生在线组相对策略优化框架。其核心创新在于：1) 探索方式上，将多样性探索的源头从随机噪声转移至历史KV缓存，通过随机路由历史KV条目，在保持数据流形一致性的同时构建语义多样化的生成分支；2) 策略建模上，引入基于轨迹速度能量的速度场代理策略，在流匹配速度空间中量化分支似然性，并生成与原生ODE公式完全一致的奖励加权对比目标。在多个蒸馏AR视频生成器上的实验表明，该方法在单提示短视频和多提示长视频设置中，均能提升视觉质量、运动质量和文本-视频对齐度。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.14278)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该研究提出KVPO框架，通过将多样性探索源头从随机噪声转移至历史KV缓存，并引入基于轨迹速度能量的速度场代理策略，在流匹配空间中构建与ODE公式一致的奖励加权对比目标，用于对齐流式自回归视频生成器与人类偏好。实验表明该方法在视觉质量、运动质量和文本-视频对齐度方面有所提升。

答案说明

KVPO是一个ODE原生的在线组相对策略优化框架，用于对齐自回归视频生成器与人类偏好。其核心创新是通过随机路由历史KV缓存条目来构建语义多样化的生成分支，并引入基于轨迹速度能量的速度场代理策略来量化分支似然性，最终生成与ODE公式完全一致的奖励加权对比目标。

这篇帖子回答的问题

KVPO框架的核心创新是什么？
KVPO在哪些方面提升了自回归视频生成器的性能？

核心观点

KVPO通过将多样性探索从随机噪声转移至历史KV缓存，在保持数据流形一致性的同时构建语义多样化的生成分支。
该方法引入基于轨迹速度能量的速度场代理策略，在流匹配速度空间中量化分支似然性，生成与ODE公式完全一致的奖励加权对比目标。

FAQ

Q: KVPO如何处理多样性探索？: A: KVPO将多样性探索的源头从随机噪声转移至历史KV缓存，通过随机路由历史KV条目，在保持数据流形一致性的同时构建语义多样化的生成分支。
Q: KVPO的策略建模有何特点？: A: KVPO引入基于轨迹速度能量的速度场代理策略，在流匹配速度空间中量化分支似然性，并生成与原生ODE公式完全一致的奖励加权对比目标。

关键实体

KVPO
GRPO
HuggingFace Daily Papers