ParaVT:解决并行视频工具调用中工具先验悖论的强化学习框架
原帖
**ParaVT:驯化智能体视频强化学习中并行工具使用的工具先验悖论**
_ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning_
> 本文介绍了ParaVT,这是首个用于并行视频工具调用的多智能体端到端强化学习框架。它通过一次调用多个时间窗口裁剪,解决了现有顺序方法存在的错误传播、上下文损坏和线性推理成本问题。研究发现了一个关键障碍——工具先验悖论:预训练的工具先验在促进工具探索的同时,也导致格式不稳定和奖励捷径。为解决此问题,作者提出了PARA-GRPO方法,通过格式奖励和帧预算随机化机制,显著提升了训练稳定性和工具调用效果。在六项长视频理解基准测试中,ParaVT相比Qwen3-VL基线平均提升7.9%,训练时格式合规率从0.13提高至0.64。论文强调,随着工具能力内化到大型多模态模型中,强化学习必须与这些先验协同工作,ParaVT为此提供了通用方案。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.20342)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月26日,HuggingFace Daily Papers介绍论文ParaVT,这是一个用于并行视频工具调用的多智能体端到端强化学习框架。该框架针对预训练模型在视频工具调用中出现的工具先验悖论问题,提出了PARA-GRPO方法。据论文报告,在六项长视频理解基准测试中,ParaVT相比Qwen3-VL基线平均提升7.9%,训练格式合规率从0.13提升至0.64。
答案说明
ParaVT是首个用于并行视频工具调用的多智能体端到端强化学习框架,通过PARA-GRPO方法解决了工具先验悖论(预训练工具先验既促进探索又导致格式不稳定),论文称其在六项长视频理解基准上相比Qwen3-VL平均提升7.9%。
这篇帖子回答的问题
- ParaVT框架解决了智能体视频强化学习中的什么核心问题?
- PARA-GRPO方法如何提升ParaVT框架的训练效果?
核心观点
- 论文指出预训练的视频工具先验存在悖论:既能促进工具探索,也会导致格式不稳定和奖励捷径,这是智能体视频强化学习的关键障碍。
- 据论文报告,ParaVT在六项长视频理解基准测试中相比Qwen3-VL基线平均提升7.9%,训练格式合规率从0.13提升至0.64。
FAQ
- Q: 什么是工具先验悖论?
- A: 论文中提出的工具先验悖论是指:预训练模型的工具先验在促进工具探索的同时,也会导致格式不稳定和奖励捷径,成为智能体视频强化学习的关键障碍。
关键实体
- ParaVT
- PARA-GRPO
- Qwen3-VL