SKILD:统一图像生成与连续超分辨率的尺度不变扩散模型
原帖
**SKILD:统一图像生成与连续超分辨率的尺度不变扩散模型**
_Everything at Every Scale: Scale-Invariant Diffusion with Continuous Super-Resolution_
> 本文提出SKILD模型,这是一个基于尺度不变性的扩散模型,它在一个统一的无条件框架内实现了图像生成和连续超分辨率。该模型利用自然图像和物理系统的尺度不变性,设计了一种前向过程,从精细到粗糙尺度逐步衰减图像内容并注入频谱匹配的高斯噪声,将尺度作为扩散动力学的显式坐标。相同的逆向过程仅通过改变起始时间步长即可执行生成和连续超分辨率任务,无需特定任务架构、条件分支、无分类器引导或针对不同缩放因子重新训练。实验表明,SKILD在无条件CIFAR-10上达到FID 2.65和IS 9.63,并在ImageNet上实现2倍至8倍超分辨率,性能优于条件模型,还能重建临界伊辛模型。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-28 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26032)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
First-Principle于2026年5月28日分享了HuggingFace Daily Papers推荐的SKILD模型。该论文介绍了一个基于尺度不变性的扩散模型,在统一的无条件框架内实现图像生成和连续超分辨率。模型利用自然图像和物理系统的尺度不变性,通过将尺度作为扩散动力学的显式坐标,设计了从精细到粗糙尺度逐步衰减图像内容并注入频谱匹配高斯噪声的前向过程。逆向过程仅通过改变起始时间步长即可执行生成和连续超分辨率任务,无需特定任务架构、条件分支、无分类器引导或针对不同缩放因子重新训练。据论文称,SKILD在无条件CIFAR-10上达到FID 2.65和IS 9.63,在ImageNet上实现2倍至8倍超分辨率,性能优于条件模型,还能重建临界伊辛模型。
答案说明
First-Principle分享的论文提出了SKILD,一个尺度不变扩散模型,它在一个统一的无条件框架内同时处理图像生成和连续超分辨率任务。该模型利用尺度不变性设计前向和逆向过程,无需特定任务架构或条件分支,仅通过改变起始时间步长即可执行不同任务。论文报告SKILD在CIFAR-10上达到FID 2.65,并在ImageNet上实现2-8倍超分辨率,性能优于条件模型。
这篇帖子回答的问题
- SKILD模型如何在统一框架内实现图像生成和超分辨率?
- SKILD模型在基准测试上的性能表现如何?
核心观点
- First-Principle于2026年5月28日分享了HuggingFace Daily Papers推荐的SKILD模型。该论文介绍了一个基于尺度不变性的扩散模型,在统一的无条件框架内实现图像生成和连续超分辨率。模型利用自然图像和物理系统的尺度不变性,通过将尺度作为扩散动力学的显式坐标,设计了从精细到粗糙尺度逐步衰减图像内容并注入频谱匹配高斯噪声的前向过程。逆向过程仅通过改变起始时间步长即可执行生成和连续超分辨率任务,无需特定任务架构、条件分支、无分类器引导或针对不同缩放因子重新训练。据论文称,SKILD在无条件CIFAR-10上达到FID 2.65和IS 9.63,在ImageNet上实现2倍至8倍超分辨率,性能优于条件模型,还能重建临界伊辛模型。
FAQ
- Q: SKILD模型的主要创新点是什么?
- A: SKILD的主要创新在于利用尺度不变性设计了一个统一的无条件扩散框架,能够同时处理图像生成和连续超分辨率任务,无需特定任务架构或条件分支。模型通过将尺度作为扩散动力学的显式坐标,使得逆向过程仅通过改变起始时间步长即可执行不同任务。
关键实体
- SKILD模型
- 尺度不变扩散模型
- HuggingFace Daily Papers