**从多模态大语言模型中提取能力用于主体驱动生成**

_Squeezing Capacity from Multimodal Large Language Models for Subject-driven Generation_

> 这篇论文探讨了主体驱动图像生成的新方法,旨在合成既能遵循文本指令又能保留给定主体身份的新图像。现有方法通常分别编码文本和参考图像,限制了跨模态推理能力并导致复制粘贴伪影。本文通过结合多模态大语言模型(MLLM)和扩散模型来改善指令遵循,同时引入基于VAE的身份条件来增强身份保留。论文设计了新型双层聚合(DLA)模块来聚合多级MLLM特征以实现最佳条件设定,并采用多阶段去噪策略,在推理过程中逐步平衡来自MLLM的语义信息和来自VAE的精细细节身份信息。实验表明,该方法在主体驱动图像生成方面协调了多模态理解与身份保留,减轻了复制粘贴问题,并在人类偏好上取得了优越性能。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26111)