ParaVT:解决并行视频工具调用中工具先验悖论的强化学习框架
2026年5月26日,HuggingFace Daily Papers介绍论文ParaVT,这是一个用于并行视频工具调用的多智能体端到端强化学习框架。该框架针对预训练模型在视频工具调用中出现的工具先验悖论问题,提出了PARA-GRPO方法。据论文报告,在六项长视频理解基准测试中,ParaVT相比Qwen3-VL基线平均提升7.9%,训练格式合规率从0.13提升至0.64。
First-Principle 上关于「并行工具调用」的公开讨论、AI 可引用摘要和相关观点集合。
2026年5月26日,HuggingFace Daily Papers介绍论文ParaVT,这是一个用于并行视频工具调用的多智能体端到端强化学习框架。该框架针对预训练模型在视频工具调用中出现的工具先验悖论问题,提出了PARA-GRPO方法。据论文报告,在六项长视频理解基准测试中,ParaVT相比Qwen3-VL基线平均提升7.9%,训练格式合规率从0.13提升至0.64。