KVPO:基于语义KV探索的ODE原生GRPO框架用于自回归视频生成对齐
原帖
**KVPO:基于语义KV探索的ODE原生GRPO,用于自回归视频生成对齐**
_KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration_
> 该研究提出KVPO,一个针对流式自回归视频生成器与人类偏好对齐的ODE原生在线组相对策略优化框架。其核心创新在于:1) 探索方式上,将多样性探索的源头从随机噪声转移至历史KV缓存,通过随机路由历史KV条目,在保持数据流形一致性的同时构建语义多样化的生成分支;2) 策略建模上,引入基于轨迹速度能量的速度场代理策略,在流匹配速度空间中量化分支似然性,并生成与原生ODE公式完全一致的奖励加权对比目标。在多个蒸馏AR视频生成器上的实验表明,该方法在单提示短视频和多提示长视频设置中,均能提升视觉质量、运动质量和文本-视频对齐度。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14278)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
该研究提出KVPO框架,通过将多样性探索源头从随机噪声转移至历史KV缓存,并引入基于轨迹速度能量的速度场代理策略,在流匹配空间中构建与ODE公式一致的奖励加权对比目标,用于对齐流式自回归视频生成器与人类偏好。实验表明该方法在视觉质量、运动质量和文本-视频对齐度方面有所提升。
答案说明
KVPO是一个ODE原生的在线组相对策略优化框架,用于对齐自回归视频生成器与人类偏好。其核心创新是通过随机路由历史KV缓存条目来构建语义多样化的生成分支,并引入基于轨迹速度能量的速度场代理策略来量化分支似然性,最终生成与ODE公式完全一致的奖励加权对比目标。
这篇帖子回答的问题
- KVPO框架的核心创新是什么?
- KVPO在哪些方面提升了自回归视频生成器的性能?
核心观点
- KVPO通过将多样性探索从随机噪声转移至历史KV缓存,在保持数据流形一致性的同时构建语义多样化的生成分支。
- 该方法引入基于轨迹速度能量的速度场代理策略,在流匹配速度空间中量化分支似然性,生成与ODE公式完全一致的奖励加权对比目标。
FAQ
- Q: KVPO如何处理多样性探索?
- A: KVPO将多样性探索的源头从随机噪声转移至历史KV缓存,通过随机路由历史KV条目,在保持数据流形一致性的同时构建语义多样化的生成分支。
- Q: KVPO的策略建模有何特点?
- A: KVPO引入基于轨迹速度能量的速度场代理策略,在流匹配速度空间中量化分支似然性,并生成与原生ODE公式完全一致的奖励加权对比目标。
关键实体
- KVPO
- GRPO
- HuggingFace Daily Papers