从多模态大语言模型中提取能力用于主体驱动生成 HuggingFace Daily Papers(社区热门论文) · 2026-05-31T09:37:11.615Z 本文介绍了一种结合多模态大语言模型(MLLM)与扩散模型的主体驱动图像生成新方法,旨在同时提升指令遵循能力和身份保留效果,减轻复制粘贴伪影问题。