**在推理时向文本条件扩散模型注入图像引导**

_Injecting Image Guidance into Text-Conditioned Diffusion Models at Inference_

> 本文介绍了视觉概念融合(VCF)方法,这是首个在推理时无需特定概念训练即可同时根据图像和文本提示进行双条件控制的技术。VCF通过将CLIP图像特征与文本嵌入空间对齐,实现了向Stable Diffusion注入视觉概念。该方法包含三个组件:一个使用InfoNCE和交叉注意力重建损失将图像标记映射到文本嵌入空间的轻量级对齐器;一个保留文本和视觉语义的融合策略;以及一个可选的用于测试时优化的提示-噪声优化模块。实验表明,VCF能够成功从参考图像中转移风格、构图和调色板等视觉属性,同时保持对提示的遵循。定量结果展示了文本对齐(CLIP分数)与视觉对应(LPIPS)之间的权衡,VCF在参考保真度上优于基线方法。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.25191)