**基于球面潜在编码器的高效图像合成**

_Efficient Image Synthesis with Sphere Latent Encoder_

> 针对当前少步图像生成方法(如一致性模型和基于流匹配的方法)存在的训练不稳定性和可扩展性有限的问题,以及近期Sphere Encoder方法在推理时需要频繁在像素空间和潜在空间切换导致的计算效率低下与目标冲突,本研究提出了一种解耦框架。该方法将框架分解为一个固定的预训练图像编码器和一个独立的在球面潜在空间中训练的去噪模型。这种方法消除了训练和推理过程中重复的像素空间操作,提高了效率,并允许重建和生成任务独立优化。在Animal-Faces、Oxford-Flowers和ImageNet-1K数据集上的实验表明,该方法在生成质量和推理速度上均显著优于Sphere Encoder,并在与强大的少步和多步基线方法对比时取得了有竞争力的结果。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-18 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15592)