基于球面潜在编码器的高效图像合成方法

原帖

**基于球面潜在编码器的高效图像合成**

_Efficient Image Synthesis with Sphere Latent Encoder_

> 针对当前少步图像生成方法（如一致性模型和基于流匹配的方法）存在的训练不稳定性和可扩展性有限的问题，以及近期Sphere Encoder方法在推理时需要频繁在像素空间和潜在空间切换导致的计算效率低下与目标冲突，本研究提出了一种解耦框架。该方法将框架分解为一个固定的预训练图像编码器和一个独立的在球面潜在空间中训练的去噪模型。这种方法消除了训练和推理过程中重复的像素空间操作，提高了效率，并允许重建和生成任务独立优化。在Animal-Faces、Oxford-Flowers和ImageNet-1K数据集上的实验表明，该方法在生成质量和推理速度上均显著优于Sphere Encoder，并在与强大的少步和多步基线方法对比时取得了有竞争力的结果。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-18 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.15592)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月18日来自HuggingFace Daily Papers的论文介绍了针对少步图像生成方法训练不稳定和Sphere Encoder计算效率低的问题，提出了一种解耦框架。该框架将系统分为固定的预训练图像编码器和在球面潜在空间中训练的独立去噪模型，避免了像素空间与潜在空间的频繁切换，提高了效率并允许任务独立优化。论文称在Animal-Faces、Oxford-Flowers和ImageNet-1K数据集上的实验表明，新方法在生成质量和推理速度上均显著优于Sphere Encoder。

答案说明

该论文提出了一种解耦框架用于高效图像合成，核心是将一个固定预训练编码器与一个在球面潜在空间中训练的独立去噪模型结合。这解决了现有方法训练不稳定和计算效率低的问题，并在多个数据集上展示了优于原Sphere Encoder的结果。

这篇帖子回答的问题

针对少步图像生成方法和Sphere Encoder效率低下的问题，该论文提出了怎样的新框架？
该新方法在哪些数据集上进行了实验，结果如何？

核心观点

该研究通过将框架解耦为固定编码器和独立去噪模型，解决了Sphere Encoder在推理时频繁切换像素空间和潜在空间导致的计算效率低下问题。
根据论文的实验结果，新方法在生成质量和推理速度上均显著优于原来的Sphere Encoder方法。

FAQ

Q: 该论文提出的解耦框架有什么主要优势？: A: 主要优势是消除了训练和推理过程中重复的像素空间操作，提高了效率，并允许重建和生成任务独立优化。

关键实体

Sphere Latent Encoder / Sphere Encoder
一致性模型
Animal-Faces
ImageNet-1K