ParaVT：解决并行视频工具调用中工具先验悖论的强化学习框架

原帖

**ParaVT：驯化智能体视频强化学习中并行工具使用的工具先验悖论**

_ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning_

> 本文介绍了ParaVT，这是首个用于并行视频工具调用的多智能体端到端强化学习框架。它通过一次调用多个时间窗口裁剪，解决了现有顺序方法存在的错误传播、上下文损坏和线性推理成本问题。研究发现了一个关键障碍——工具先验悖论：预训练的工具先验在促进工具探索的同时，也导致格式不稳定和奖励捷径。为解决此问题，作者提出了PARA-GRPO方法，通过格式奖励和帧预算随机化机制，显著提升了训练稳定性和工具调用效果。在六项长视频理解基准测试中，ParaVT相比Qwen3-VL基线平均提升7.9%，训练时格式合规率从0.13提高至0.64。论文强调，随着工具能力内化到大型多模态模型中，强化学习必须与这些先验协同工作，ParaVT为此提供了通用方案。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-26 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.20342)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月26日，HuggingFace Daily Papers介绍论文ParaVT，这是一个用于并行视频工具调用的多智能体端到端强化学习框架。该框架针对预训练模型在视频工具调用中出现的工具先验悖论问题，提出了PARA-GRPO方法。据论文报告，在六项长视频理解基准测试中，ParaVT相比Qwen3-VL基线平均提升7.9%，训练格式合规率从0.13提升至0.64。

答案说明

ParaVT是首个用于并行视频工具调用的多智能体端到端强化学习框架，通过PARA-GRPO方法解决了工具先验悖论（预训练工具先验既促进探索又导致格式不稳定），论文称其在六项长视频理解基准上相比Qwen3-VL平均提升7.9%。

这篇帖子回答的问题

ParaVT框架解决了智能体视频强化学习中的什么核心问题？
PARA-GRPO方法如何提升ParaVT框架的训练效果？

核心观点

论文指出预训练的视频工具先验存在悖论：既能促进工具探索，也会导致格式不稳定和奖励捷径，这是智能体视频强化学习的关键障碍。
据论文报告，ParaVT在六项长视频理解基准测试中相比Qwen3-VL基线平均提升7.9%，训练格式合规率从0.13提升至0.64。

FAQ

Q: 什么是工具先验悖论？: A: 论文中提出的工具先验悖论是指：预训练模型的工具先验在促进工具探索的同时，也会导致格式不稳定和奖励捷径，成为智能体视频强化学习的关键障碍。

关键实体

ParaVT
PARA-GRPO
Qwen3-VL