SAMOSA框架：融合运动、几何与语义适应以应对复杂非线性视觉目标跟踪

原帖

**融合运动、几何和语义自适应的SAMOSA框架：解决复杂非线性视觉目标跟踪难题**

_Segment Anything with Motion, Geometry, and Semantic Adaptation for Complex Nonlinear Visual Object Tracking_

> 这篇论文提出了一个名为SAMOSA的新框架，旨在提升视觉目标跟踪（VOT）在复杂场景下的性能。传统VOT方法泛化能力有限，而现有的基础模型如SAM 2虽具备强大的视频理解先验，但未显式建模目标运动动态或确保跨帧的几何与语义一致性。SAMOSA通过引入轻量级非线性运动预测器来建模目标动态，并利用语义线索检测目标偏移和恢复跟踪失败，同时将几何线索作为结构约束以增强跟踪稳定性。实验表明，SAMOSA在通用基准上优于现有基于SAM 2的方法，相比监督式VOT方法泛化能力更强，并在反无人机等复杂非线性运动场景数据集上取得显著提升。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-22 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.22538)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

一篇论文提出了名为SAMOSA的新框架，旨在提升视觉目标跟踪在复杂非线性场景下的性能。该框架针对基础模型SAM 2在显式建模目标运动动态和确保跨帧几何与语义一致性方面的不足，通过引入轻量级非线性运动预测器、利用语义线索检测偏移、以及应用几何线索作为结构约束进行改进。据论文实验表明，该方法在通用基准上优于基于SAM 2的方法，相比监督式VOT方法泛化能力更强，并在反无人机等数据集上取得显著提升。

答案说明

根据发表于HuggingFace Daily Papers的论文摘要，SAMOSA是一个针对视觉目标跟踪的新框架，它通过融合运动、几何和语义自适应来提升在复杂非线性场景（如反无人机）下的跟踪性能。

这篇帖子回答的问题

SAMOSA框架如何改进视觉目标跟踪性能？
论文中SAMOSA相比现有方法有何优势？

核心观点

论文提出SAMOSA框架，通过整合非线性运动预测、语义偏移检测和几何约束，以解决基础模型SAM 2在复杂非线性视觉目标跟踪中的不足。

关键实体

SAMOSA
SAM 2
视觉目标跟踪 (VOT)