从多模态大语言模型中提取能力用于主体驱动生成
原帖
**从多模态大语言模型中提取能力用于主体驱动生成**
_Squeezing Capacity from Multimodal Large Language Models for Subject-driven Generation_
> 这篇论文探讨了主体驱动图像生成的新方法,旨在合成既能遵循文本指令又能保留给定主体身份的新图像。现有方法通常分别编码文本和参考图像,限制了跨模态推理能力并导致复制粘贴伪影。本文通过结合多模态大语言模型(MLLM)和扩散模型来改善指令遵循,同时引入基于VAE的身份条件来增强身份保留。论文设计了新型双层聚合(DLA)模块来聚合多级MLLM特征以实现最佳条件设定,并采用多阶段去噪策略,在推理过程中逐步平衡来自MLLM的语义信息和来自VAE的精细细节身份信息。实验表明,该方法在主体驱动图像生成方面协调了多模态理解与身份保留,减轻了复制粘贴问题,并在人类偏好上取得了优越性能。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26111)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了一种结合多模态大语言模型(MLLM)与扩散模型的主体驱动图像生成新方法,旨在同时提升指令遵循能力和身份保留效果,减轻复制粘贴伪影问题。
答案说明
该论文提出了一种新方法,通过结合多模态大语言模型(MLLM)和扩散模型来改进主体驱动的图像生成,使其既能遵循文本指令又能保留主体身份,并引入了双层聚合(DLA)模块和多阶段去噪策略来优化生成效果。
这篇帖子回答的问题
- 如何解决主体驱动图像生成中的指令遵循与身份保留的平衡问题?
核心观点
- 该论文提出的新方法通过结合MLLM与扩散模型,并利用DLA模块和多阶段去噪策略,在主体驱动图像生成中协调了多模态理解与身份保留。
关键实体
- 多模态大语言模型 (MLLM)
- 扩散模型
- 双层聚合 (DLA) 模块