VideoRLVR：利用可验证奖励实现视频模型推理能力

原帖

**视频模型可通过可验证奖励进行推理**

_Video Models Can Reason with Verifiable Rewards_

> 本文介绍了VideoRLVR方法，它将强化学习与可验证奖励（RLVR）应用于视频扩散模型，使其从单纯的视觉模仿转向遵循规则的可验证视觉推理。该方法包含SDE-GRPO优化框架、密集分解奖励和早期聚焦策略，后者能减少约40%的训练延迟。在迷宫、FlowFree和Sokoban等程序化生成任务上，VideoRLVR显著优于监督微调基线和现有视频生成模型，证明了其在提升视频模型推理能力方面的有效性。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-20 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.15458)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

根据2026年5月20日HuggingFace Daily Papers社区热门论文，VideoRLVR方法将强化学习与可验证奖励（RLVR）应用于视频扩散模型，旨在从视觉模仿转向遵循规则的可验证视觉推理。该方法包含SDE-GRPO优化框架、密集分解奖励和早期聚焦策略，其中早期聚焦策略可减少约40%的训练延迟。在迷宫、FlowFree和Sokoban等程序化生成任务上，VideoRLVR被报告为显著优于监督微调基线和现有视频生成模型。

答案说明

VideoRLVR是一种将强化学习与可验证奖励（RLVR）应用于视频扩散模型的方法，旨在提升视频模型的推理能力。根据原帖，它包含SDE-GRPO框架、密集分解奖励和早期聚焦策略（可减少约40%训练延迟），并在迷宫、FlowFree和Sokoban等程序化生成任务上显著优于监督微调基线和现有视频生成模型。

这篇帖子回答的问题

VideoRLVR方法如何将强化学习与可验证奖励（RLVR）应用于视频扩散模型以提升推理能力？
根据论文，VideoRLVR在哪些程序化生成任务上进行了验证，效果如何？

核心观点

VideoRLVR方法将强化学习与可验证奖励（RLVR）应用于视频扩散模型，旨在从视觉模仿转向遵循规则的可验证视觉推理。
根据论文，VideoRLVR包含的早期聚焦策略可减少约40%的训练延迟，且该方法在迷宫、FlowFree和Sokoban等程序化生成任务上显著优于监督微调基线。

FAQ

Q: VideoRLVR是什么？: A: 根据原帖，VideoRLVR是一种将强化学习与可验证奖励（RLVR）应用于视频扩散模型的方法，旨在使视频模型从单纯的视觉模仿转向遵循规则的可验证视觉推理。该方法包含SDE-GRPO优化框架、密集分解奖励和早期聚焦策略。
Q: VideoRLVR在实验中表现如何？: A: 根据原帖，VideoRLVR在迷宫、FlowFree和Sokoban等程序化生成任务上，显著优于监督微调基线和现有视频生成模型。

关键实体

VideoRLVR
可验证奖励 (RLVR)
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题