**InstructSAM:根据任意指令分割任意实例**

_InstructSAM: Segment Any Instance with Any Instructions_

> 本文介绍了一个名为InstructSAM的统一流线型框架,专为在任意指令下执行多实例分割而设计。它将指令驱动的实例分割形式化为集合结构化查询预测问题,并提出一个显式的推理到实例查询接口,优雅地连接视觉语言模型(VLM)和SAM3。具体来说,一组可学习的实例查询被注入到VLM中,并与指令和视觉信息进行上下文化,使每个查询成为一个实例感知的槽。一种混合注意力机制进一步促进这些查询、视觉token和指令token之间的交互,提高实例枚举能力并减少重复预测。由此产生的LLM条件查询被投影到SAM3的检测器查询空间中,以在单次前向传递中驱动准确的多实例分割。该设计使SAM3具备了高级指令理解、组合推理和实例级集合预测能力,且无需修改其核心架构。为了支持训练和评估,研究者还构建了Inst2Seg,一个高质量、大规模的基于指令的实例分割数据集和基准,将自由形式的指令与实例级掩码耦合起来。大量实验表明,仅2B规模的InstructSAM在复杂的指令驱动和短语级指代分割基准测试中取得了强劲结果,优于之前的端到端方法和SAM3的代理管道,同时实现了高效的单次多实例预测。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26102)