基于球面潜在编码器的高效图像合成方法
2026年5月18日来自HuggingFace Daily Papers的论文介绍了针对少步图像生成方法训练不稳定和Sphere Encoder计算效率低的问题,提出了一种解耦框架。该框架将系统分为固定的预训练图像编码器和在球面潜在空间中训练的独立去噪模型,避免了像素空间与潜在空间的频繁切换,提高了效率并允许任务独立优化。论文称在Animal-Faces、Oxford-Flowers和ImageNet-1K数据集上的实验表明,新方法在生成质量和推理速度上均显著优于Sphere Encoder。