视觉概念融合（VCF）：无需训练即可同时使用图像和文本提示引导扩散模型

原帖

**在推理时向文本条件扩散模型注入图像引导**

_Injecting Image Guidance into Text-Conditioned Diffusion Models at Inference_

> 本文介绍了视觉概念融合（VCF）方法，这是首个在推理时无需特定概念训练即可同时根据图像和文本提示进行双条件控制的技术。VCF通过将CLIP图像特征与文本嵌入空间对齐，实现了向Stable Diffusion注入视觉概念。该方法包含三个组件：一个使用InfoNCE和交叉注意力重建损失将图像标记映射到文本嵌入空间的轻量级对齐器；一个保留文本和视觉语义的融合策略；以及一个可选的用于测试时优化的提示-噪声优化模块。实验表明，VCF能够成功从参考图像中转移风格、构图和调色板等视觉属性，同时保持对提示的遵循。定量结果展示了文本对齐（CLIP分数）与视觉对应（LPIPS）之间的权衡，VCF在参考保真度上优于基线方法。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-26 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.25191)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了视觉概念融合（VCF）方法，该方法允许在推理时同时使用图像和文本提示来控制文本条件扩散模型（如Stable Diffusion），而无需针对特定概念进行训练。

答案说明

视觉概念融合（VCF）是一种新技术，它通过将CLIP图像特征与文本嵌入空间对齐，在推理时向Stable Diffusion等模型注入视觉概念，从而实现基于图像和文本的双条件控制。

这篇帖子回答的问题

什么是视觉概念融合（VCF）方法？
VCF如何将图像信息注入到文本条件扩散模型中？

核心观点

VCF是一种无需针对特定概念进行训练，即可在推理时同时使用图像和文本提示控制扩散模型的新方法。
实验表明，VCF能够从参考图像中转移风格、构图和调色板等视觉属性，同时在参考保真度上优于基线方法。

FAQ

Q: VCF方法的主要优势是什么？: A: 根据帖子，VCF的主要优势是它是首个在推理时无需针对特定概念进行训练，即可同时根据图像和文本提示进行双条件控制的技术，能够在保持对文本提示遵循的同时，从参考图像中转移视觉属性。

关键实体

视觉概念融合（VCF）
Stable Diffusion
CLIP