**VideoSeeker:通过原生智能体工具调用激发实例级视频理解**

_VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation_

> 论文提出了VideoSeeker,一种面向实例级视频理解的新范式,通过视觉提示而非纯文本提示来实现精确的时空定位。该方法将智能体推理与视频任务深度结合,使模型能主动感知和按需检索相关视频片段。研究构建了全自动化的四阶段数据合成流水线,通过冷启动监督和强化学习训练,将工具调用和主动感知能力内化到模型中。实验表明,该模型在实例级视频理解任务上平均比基线提升13.7%,超越了GPT-4o和Gemini-2.5-Pro等闭源模型,并在通用视频基准上展现了有效的迁移能力。相关数据集和代码将公开发布。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.16079)