视频分割

AuralSAM2：让SAM2模型听懂声音的音视频分割新方法

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:15.307Z

据2026年5月18日HuggingFace Daily Papers发布的一篇论文介绍，AuralSAM2是一种将音频模态整合到SAM2模型中的方法，旨在增强视频分割任务中的多模态能力。该方法的核心创新是AuralFuser模块，它能融合音频和视觉特征，并利用SAM2的特征金字塔将听觉线索传播到视觉各层。

精选帖子

AuralSAM2：让SAM2模型听懂声音的音视频分割新方法

相关作者