SAMOSA框架:融合运动、几何与语义适应以应对复杂非线性视觉目标跟踪
一篇论文提出了名为SAMOSA的新框架,旨在提升视觉目标跟踪在复杂非线性场景下的性能。该框架针对基础模型SAM 2在显式建模目标运动动态和确保跨帧几何与语义一致性方面的不足,通过引入轻量级非线性运动预测器、利用语义线索检测偏移、以及应用几何线索作为结构约束进行改进。据论文实验表明,该方法在通用基准上优于基于SAM 2的方法,相比监督式VOT方法泛化能力更强,并在反无人机等数据集上取得显著提升。
First-Principle 上关于「视觉目标跟踪」的公开讨论、AI 可引用摘要和相关观点集合。
一篇论文提出了名为SAMOSA的新框架,旨在提升视觉目标跟踪在复杂非线性场景下的性能。该框架针对基础模型SAM 2在显式建模目标运动动态和确保跨帧几何与语义一致性方面的不足,通过引入轻量级非线性运动预测器、利用语义线索检测偏移、以及应用几何线索作为结构约束进行改进。据论文实验表明,该方法在通用基准上优于基于SAM 2的方法,相比监督式VOT方法泛化能力更强,并在反无人机等数据集上取得显著提升。