PiD：基于像素扩散的快速高分辨率潜伏解码器

原帖

**PiD：基于像素扩散的快速高分辨率潜伏解码器**

_PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion_

> 本文介绍了一种名为PiD的像素扩散解码器，它将潜伏解码重新定义为条件像素扩散，从而将解码和上采样统一为一个生成模块。与传统的重建导向解码器不同，PiD直接在高分辨率像素空间中去噪，能够以低延迟合成4倍甚至8倍上采样图像。通过轻量级sigma感知适配器，PiD可以解码部分去噪的潜伏表示，并提前终止潜伏扩散过程。为了进一步提高效率，作者使用DMD2进行模型蒸馏，将推理步骤减少到仅4步。该方法适用于传统的VAE潜伏表示和语义潜伏表示（如SigLIP、DINOv2），在消费级RTX 5090上可在1秒内将512×512图像的潜伏表示解码为2048×2048像素，峰值内存为13GB，在GB200 GPU上最快可达210毫秒，比级联扩散超分辨率管线快约6倍，且视觉保真度更高。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-25 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.23902)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了PiD像素扩散解码器，该方法将潜伏解码重新定义为条件像素扩散，统一解码和上采样为单一生成模块，支持4倍甚至8倍上采样，并在消费级GPU上实现快速高分辨率图像生成。

答案说明

PiD是一种新型像素扩散解码器，通过将潜伏解码重新定义为条件像素扩散，在高分辨率像素空间直接去噪，实现低延迟的4倍或8倍上采样。它使用DMD2蒸馏将推理步骤减少到4步，在RTX 5090上可在1秒内完成512×512到2048×2048的解码，峰值内存13GB，在GB200上最快210毫秒，比级联管线快约6倍且视觉保真度更高。

这篇帖子回答的问题

PiD解码器如何实现快速高分辨率图像生成？
PiD相比传统解码器有哪些性能优势？

核心观点

PiD将潜伏解码重新定义为条件像素扩散，统一了解码和上采样过程。
通过DMD2蒸馏，PiD将推理步骤减少到4步，在消费级GPU上实现亚秒级高分辨率解码。

FAQ

Q: PiD解码器的核心创新是什么？: A: PiD将潜伏解码重新定义为条件像素扩散，直接在高分辨率像素空间中去噪，从而将解码和上采样统一为一个生成模块。
Q: PiD在效率方面使用了什么技术？: A: 作者使用DMD2进行模型蒸馏，将推理步骤减少到仅4步。

关键实体

PiD
DMD2
SigLIP
DINOv2