**AuralSAM2:通过金字塔音视频特征提示让SAM2具备“听觉”能力**

_AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting_

> 该论文提出了AuralSAM2,一种将音频模态整合到SAM2(Segment Anything Model 2)中的方法,旨在增强其视频分割任务中的多模态能力。核心创新点在于AuralFuser模块,它能融合音频和视觉特征,生成稀疏和稠密的提示,并利用SAM2的特征金字塔将听觉线索传播到视觉各层。同时,引入了音频引导的对比损失来增强跨模态对齐。该方法在公开基准上取得了显著的精度提升,且对SAM2原有的交互式分割效率影响极小。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2506.01015)