InstructSAM：基于指令的多实例分割统一框架

原帖

**InstructSAM：根据任意指令分割任意实例**

_InstructSAM: Segment Any Instance with Any Instructions_

> 本文介绍了一个名为InstructSAM的统一流线型框架，专为在任意指令下执行多实例分割而设计。它将指令驱动的实例分割形式化为集合结构化查询预测问题，并提出一个显式的推理到实例查询接口，优雅地连接视觉语言模型（VLM）和SAM3。具体来说，一组可学习的实例查询被注入到VLM中，并与指令和视觉信息进行上下文化，使每个查询成为一个实例感知的槽。一种混合注意力机制进一步促进这些查询、视觉token和指令token之间的交互，提高实例枚举能力并减少重复预测。由此产生的LLM条件查询被投影到SAM3的检测器查询空间中，以在单次前向传递中驱动准确的多实例分割。该设计使SAM3具备了高级指令理解、组合推理和实例级集合预测能力，且无需修改其核心架构。为了支持训练和评估，研究者还构建了Inst2Seg，一个高质量、大规模的基于指令的实例分割数据集和基准，将自由形式的指令与实例级掩码耦合起来。大量实验表明，仅2B规模的InstructSAM在复杂的指令驱动和短语级指代分割基准测试中取得了强劲结果，优于之前的端到端方法和SAM3的代理管道，同时实现了高效的单次多实例预测。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-26 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.26102)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月26日，HuggingFace社区热门论文介绍了InstructSAM框架，该框架将指令驱动的实例分割形式化为集合结构化查询预测问题，通过显式接口连接视觉语言模型与SAM3，实现了在单次前向传递中进行准确的多实例分割。

答案说明

InstructSAM是一个统一流线型框架，专为在任意指令下执行多实例分割而设计。它通过将可学习的实例查询注入视觉语言模型，并利用混合注意力机制增强查询、视觉token与指令token之间的交互，从而将LLM条件查询投影到SAM3的检测器查询空间中，以单次前向传递驱动准确的多实例分割。该框架仅2B规模，据称在复杂指令驱动和短语级指代分割基准测试中取得了优于先前端到端方法的结果。

这篇帖子回答的问题

InstructSAM如何将指令驱动的实例分割形式化？
InstructSAM与SAM3是如何连接的？

核心观点

InstructSAM将指令驱动的实例分割形式化为集合结构化查询预测问题，并通过显式接口连接VLM与SAM3。
该框架仅2B规模，在复杂指令驱动和短语级指代分割基准测试中据称优于先前端到端方法，并实现了高效的单次多实例预测。

FAQ

Q: InstructSAM解决了什么问题？: A: InstructSAM旨在解决在任意指令下执行多实例分割的问题，通过统一的框架将指令理解与实例分割相结合。
Q: InstructSAM的性能如何？: A: 据该帖子介绍，仅2B规模的InstructSAM在复杂指令驱动和短语级指代分割基准测试中取得了强劲结果，优于之前的端到端方法。

关键实体

InstructSAM
SAM3
VLM