**几何至关重要:用于学习语义对应关系的3D基础先验**

_Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence_

> 本文提出了一种3D感知的后训练框架,用于提升语义对应关系估计。当前基于自监督视觉模型(如DINO)和文生图扩散模型(如Stable Diffusion)的特征虽然有效,但缺乏对3D结构的显式感知,容易混淆对称部件、重复结构或视觉相似但3D空间中不同的结构。新方法利用SAM3D估计物体的几何形状和姿态,通过渲染-比较优化精化姿态,并将基于重建几何的PartField描述符渲染到图像平面。这些几何感知的特征图补充了DINO和Stable Diffusion特征,同时利用重建形状上的测地距离可靠地过滤候选对应关系。最终,使用过滤后的匹配作为监督信号,在DINO和Stable Diffusion之上训练一个轻量级适配器,用于语义对应学习。与以往依赖姿态标注和粗糙球体几何的后训练方法不同,该方法能自动获取实例特定的3D结构并用于指导学习。实验表明,该方法在减少人工几何监督的同时,提升了语义对应性能。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.30093)