从多模态大语言模型中提取能力用于主体驱动生成

原帖

**从多模态大语言模型中提取能力用于主体驱动生成**

_Squeezing Capacity from Multimodal Large Language Models for Subject-driven Generation_

> 这篇论文探讨了主体驱动图像生成的新方法，旨在合成既能遵循文本指令又能保留给定主体身份的新图像。现有方法通常分别编码文本和参考图像，限制了跨模态推理能力并导致复制粘贴伪影。本文通过结合多模态大语言模型（MLLM）和扩散模型来改善指令遵循，同时引入基于VAE的身份条件来增强身份保留。论文设计了新型双层聚合（DLA）模块来聚合多级MLLM特征以实现最佳条件设定，并采用多阶段去噪策略，在推理过程中逐步平衡来自MLLM的语义信息和来自VAE的精细细节身份信息。实验表明，该方法在主体驱动图像生成方面协调了多模态理解与身份保留，减轻了复制粘贴问题，并在人类偏好上取得了优越性能。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-27 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.26111)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了一种结合多模态大语言模型（MLLM）与扩散模型的主体驱动图像生成新方法，旨在同时提升指令遵循能力和身份保留效果，减轻复制粘贴伪影问题。

答案说明

该论文提出了一种新方法，通过结合多模态大语言模型（MLLM）和扩散模型来改进主体驱动的图像生成，使其既能遵循文本指令又能保留主体身份，并引入了双层聚合（DLA）模块和多阶段去噪策略来优化生成效果。

这篇帖子回答的问题

如何解决主体驱动图像生成中的指令遵循与身份保留的平衡问题？

核心观点

该论文提出的新方法通过结合MLLM与扩散模型，并利用DLA模块和多阶段去噪策略，在主体驱动图像生成中协调了多模态理解与身份保留。

关键实体

多模态大语言模型 (MLLM)
扩散模型
双层聚合 (DLA) 模块