**PiD:基于像素扩散的快速高分辨率潜伏解码器**

_PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion_

> 本文介绍了一种名为PiD的像素扩散解码器,它将潜伏解码重新定义为条件像素扩散,从而将解码和上采样统一为一个生成模块。与传统的重建导向解码器不同,PiD直接在高分辨率像素空间中去噪,能够以低延迟合成4倍甚至8倍上采样图像。通过轻量级sigma感知适配器,PiD可以解码部分去噪的潜伏表示,并提前终止潜伏扩散过程。为了进一步提高效率,作者使用DMD2进行模型蒸馏,将推理步骤减少到仅4步。该方法适用于传统的VAE潜伏表示和语义潜伏表示(如SigLIP、DINOv2),在消费级RTX 5090上可在1秒内将512×512图像的潜伏表示解码为2048×2048像素,峰值内存为13GB,在GB200 GPU上最快可达210毫秒,比级联扩散超分辨率管线快约6倍,且视觉保真度更高。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-25 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.23902)