**视频模型可通过可验证奖励进行推理**

_Video Models Can Reason with Verifiable Rewards_

> 本文介绍了VideoRLVR方法,它将强化学习与可验证奖励(RLVR)应用于视频扩散模型,使其从单纯的视觉模仿转向遵循规则的可验证视觉推理。该方法包含SDE-GRPO优化框架、密集分解奖励和早期聚焦策略,后者能减少约40%的训练延迟。在迷宫、FlowFree和Sokoban等程序化生成任务上,VideoRLVR显著优于监督微调基线和现有视频生成模型,证明了其在提升视频模型推理能力方面的有效性。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15458)