VideoSeeker：通过智能体工具调用提升实例级视频理解

原帖

**VideoSeeker：通过原生智能体工具调用激发实例级视频理解**

_VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation_

> 论文提出了VideoSeeker，一种面向实例级视频理解的新范式，通过视觉提示而非纯文本提示来实现精确的时空定位。该方法将智能体推理与视频任务深度结合，使模型能主动感知和按需检索相关视频片段。研究构建了全自动化的四阶段数据合成流水线，通过冷启动监督和强化学习训练，将工具调用和主动感知能力内化到模型中。实验表明，该模型在实例级视频理解任务上平均比基线提升13.7%，超越了GPT-4o和Gemini-2.5-Pro等闭源模型，并在通用视频基准上展现了有效的迁移能力。相关数据集和代码将公开发布。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.16079)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

论文提出VideoSeeker范式，通过视觉提示与智能体推理结合，实现精确时空定位，在实例级视频理解任务中平均提升13.7%，超越GPT-4o和Gemini-2.5-Pro等闭源模型。

答案说明

VideoSeeker是一种新范式，通过原生智能体工具调用和视觉提示，使模型能主动感知和按需检索视频片段，在实例级视频理解上超越闭源模型。

这篇帖子回答的问题

VideoSeeker如何实现实例级视频理解？
VideoSeeker在实例级视频理解任务上相比闭源模型表现如何？

核心观点

论文称VideoSeeker在实例级视频理解任务上平均比基线提升13.7%，并超越了GPT-4o和Gemini-2.5-Pro。
VideoSeeker通过视觉提示和智能体推理结合，使模型能主动感知和按需检索视频片段。

FAQ

Q: VideoSeeker的核心技术是什么？: A: 论文提出的核心技术是通过视觉提示而非纯文本提示来实现精确的时空定位，并将智能体推理与视频任务深度结合，使模型能主动感知和按需检索相关视频片段。

关键实体

VideoSeeker
GPT-4o
Gemini-2.5-Pro