**语义生成式调优:统一多模态模型的新范式**

_Semantic Generative Tuning for Unified Multimodal Models_

> 本文首次系统研究了生成式后训练方法,旨在解决统一多模态模型(UMMs)中视觉理解与生成表示空间不对齐的问题。作者提出语义生成式调优(SGT)范式,利用图像分割作为高级语义代理任务,通过生成式优化桥接视觉理解与生成的隔离。SGT显著提升了模型的特征线性可分性和视觉-文本注意力分配模式,在主流基准测试中一致改善了多模态理解与生成保真度。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-20 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18714)