视觉-语言对齐

该研究提出语义生成式调优（SGT）范式，旨在解决统一多模态模型（UMMs）中视觉理解与生成表示空间不对齐的核心问题。SGT通过将图像分割作为高级语义代理任务，并采用生成式优化方法，成功桥接了模型内部的视觉理解与生成隔离。

精选帖子