**融合运动、几何和语义自适应的SAMOSA框架:解决复杂非线性视觉目标跟踪难题**

_Segment Anything with Motion, Geometry, and Semantic Adaptation for Complex Nonlinear Visual Object Tracking_

> 这篇论文提出了一个名为SAMOSA的新框架,旨在提升视觉目标跟踪(VOT)在复杂场景下的性能。传统VOT方法泛化能力有限,而现有的基础模型如SAM 2虽具备强大的视频理解先验,但未显式建模目标运动动态或确保跨帧的几何与语义一致性。SAMOSA通过引入轻量级非线性运动预测器来建模目标动态,并利用语义线索检测目标偏移和恢复跟踪失败,同时将几何线索作为结构约束以增强跟踪稳定性。实验表明,SAMOSA在通用基准上优于现有基于SAM 2的方法,相比监督式VOT方法泛化能力更强,并在反无人机等复杂非线性运动场景数据集上取得显著提升。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.22538)