AuralSAM2：让SAM2模型听懂声音的音视频分割新方法

原帖

**AuralSAM2：通过金字塔音视频特征提示让SAM2具备“听觉”能力**

_AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting_

> 该论文提出了AuralSAM2，一种将音频模态整合到SAM2（Segment Anything Model 2）中的方法，旨在增强其视频分割任务中的多模态能力。核心创新点在于AuralFuser模块，它能融合音频和视觉特征，生成稀疏和稠密的提示，并利用SAM2的特征金字塔将听觉线索传播到视觉各层。同时，引入了音频引导的对比损失来增强跨模态对齐。该方法在公开基准上取得了显著的精度提升，且对SAM2原有的交互式分割效率影响极小。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-18 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2506.01015)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

据2026年5月18日HuggingFace Daily Papers发布的一篇论文介绍，AuralSAM2是一种将音频模态整合到SAM2模型中的方法，旨在增强视频分割任务中的多模态能力。该方法的核心创新是AuralFuser模块，它能融合音频和视觉特征，并利用SAM2的特征金字塔将听觉线索传播到视觉各层。

答案说明

AuralSAM2是一种新方法，它通过AuralFuser模块将音频特征整合到SAM2模型中，利用特征金字塔传播听觉线索，从而增强视频分割的多模态能力，并在基准测试中提升了精度。

这篇帖子回答的问题

AuralSAM2是如何让SAM2模型具备听觉能力的？
AuralSAM2方法在视频分割任务上取得了什么效果？

核心观点

AuralSAM2通过创新的AuralFuser模块，将音频信息融入SAM2的视觉特征金字塔，实现了音视频联合分割。
该方法在公开基准上提升了分割精度，且对SAM2原有的交互式分割效率影响极小。

FAQ

Q: AuralSAM2是什么？: A: AuralSAM2是一种将音频模态整合到SAM2模型中的方法，旨在增强视频分割任务的多模态能力。
Q: AuralSAM2的核心创新是什么？: A: 核心创新是AuralFuser模块，它能融合音频和视觉特征，并利用SAM2的特征金字塔将听觉线索传播到视觉各层。

关键实体

AuralSAM2
SAM2
AuralFuser模块
HuggingFace Daily Papers