**ParaVT:驯化智能体视频强化学习中并行工具使用的工具先验悖论**

_ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning_

> 本文介绍了ParaVT,这是首个用于并行视频工具调用的多智能体端到端强化学习框架。它通过一次调用多个时间窗口裁剪,解决了现有顺序方法存在的错误传播、上下文损坏和线性推理成本问题。研究发现了一个关键障碍——工具先验悖论:预训练的工具先验在促进工具探索的同时,也导致格式不稳定和奖励捷径。为解决此问题,作者提出了PARA-GRPO方法,通过格式奖励和帧预算随机化机制,显著提升了训练稳定性和工具调用效果。在六项长视频理解基准测试中,ParaVT相比Qwen3-VL基线平均提升7.9%,训练时格式合规率从0.13提高至0.64。论文强调,随着工具能力内化到大型多模态模型中,强化学习必须与这些先验协同工作,ParaVT为此提供了通用方案。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20342)