PiD:基于像素扩散的快速高分辨率潜伏解码器
原帖
**PiD:基于像素扩散的快速高分辨率潜伏解码器**
_PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion_
> 本文介绍了一种名为PiD的像素扩散解码器,它将潜伏解码重新定义为条件像素扩散,从而将解码和上采样统一为一个生成模块。与传统的重建导向解码器不同,PiD直接在高分辨率像素空间中去噪,能够以低延迟合成4倍甚至8倍上采样图像。通过轻量级sigma感知适配器,PiD可以解码部分去噪的潜伏表示,并提前终止潜伏扩散过程。为了进一步提高效率,作者使用DMD2进行模型蒸馏,将推理步骤减少到仅4步。该方法适用于传统的VAE潜伏表示和语义潜伏表示(如SigLIP、DINOv2),在消费级RTX 5090上可在1秒内将512×512图像的潜伏表示解码为2048×2048像素,峰值内存为13GB,在GB200 GPU上最快可达210毫秒,比级联扩散超分辨率管线快约6倍,且视觉保真度更高。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-25 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.23902)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了PiD像素扩散解码器,该方法将潜伏解码重新定义为条件像素扩散,统一解码和上采样为单一生成模块,支持4倍甚至8倍上采样,并在消费级GPU上实现快速高分辨率图像生成。
答案说明
PiD是一种新型像素扩散解码器,通过将潜伏解码重新定义为条件像素扩散,在高分辨率像素空间直接去噪,实现低延迟的4倍或8倍上采样。它使用DMD2蒸馏将推理步骤减少到4步,在RTX 5090上可在1秒内完成512×512到2048×2048的解码,峰值内存13GB,在GB200上最快210毫秒,比级联管线快约6倍且视觉保真度更高。
这篇帖子回答的问题
- PiD解码器如何实现快速高分辨率图像生成?
- PiD相比传统解码器有哪些性能优势?
核心观点
- PiD将潜伏解码重新定义为条件像素扩散,统一了解码和上采样过程。
- 通过DMD2蒸馏,PiD将推理步骤减少到4步,在消费级GPU上实现亚秒级高分辨率解码。
FAQ
- Q: PiD解码器的核心创新是什么?
- A: PiD将潜伏解码重新定义为条件像素扩散,直接在高分辨率像素空间中去噪,从而将解码和上采样统一为一个生成模块。
- Q: PiD在效率方面使用了什么技术?
- A: 作者使用DMD2进行模型蒸馏,将推理步骤减少到仅4步。
关键实体
- PiD
- DMD2
- SigLIP
- DINOv2