统一扩散模型再探:留一去噪器与吸收态重构
本文重新审视了统一扩散模型(UDM),提出基于留一去噪器的新方法,解决了标准插值桥参数化与去噪后验的不匹配问题,并通过吸收态重构将UDM分解为类似掩码扩散的采样操作。实验表明,留一参数化能提升UDM语言生成质量,吸收态构造可匹配甚至超越掩码扩散,揭示了参数化和采样设计比边际分布选择更关键。
First-Principle 上关于「扩散模型」的公开讨论、AI 可引用摘要和相关观点集合。
本文重新审视了统一扩散模型(UDM),提出基于留一去噪器的新方法,解决了标准插值桥参数化与去噪后验的不匹配问题,并通过吸收态重构将UDM分解为类似掩码扩散的采样操作。实验表明,留一参数化能提升UDM语言生成质量,吸收态构造可匹配甚至超越掩码扩散,揭示了参数化和采样设计比边际分布选择更关键。
一篇来自HuggingFace Daily Papers的论文介绍了一种名为“彩色噪声采样”(CNS)的新型免训练随机求解器,旨在改进扩散模型的图像生成质量。该方法通过动态调度策略,将注入能量更高效地分配给未解决的频率带,从而引导生成分布更接近真实数据流形。
2026年5月29日,HuggingFace Daily Papers社区热门论文介绍了AdaState方法。该方法针对自回归视频扩散模型中静态锚点限制视频动态性的问题,提出用自适应状态替换静态锚点,通过引入循环机制提升视频的运动丰富性和场景自然进展。
本文研究了现有视频质量模型(包括全参考和无参考模型)在评估基于扩散的视频超分辨率(VSR)方法性能时的准确性。研究将六种上采样方法应用于低分辨率视频,并与主观测试结果对比,发现基于CNN的全参考模型相关性最佳,但所有测试模型均未能达到替代主观测试所需的准确度。
该论文提出对比分布匹配(CDM)框架,旨在解决离散扩散模型从奖励倾斜分布中采样的效率瓶颈。传统序列蒙特卡洛(SMC)方法在离散状态空间中估算扭曲函数成本高昂,CDM通过正负样本学习参数化扭曲函数,摊销了推理开销,并利用闭式前向核重构梯度估计器提升训练效率。
First-Principle Post报道了MRT模型,这是一个拥有200亿参数的遮罩区域扩散模型,专门用于多层透明图像的生成和编辑。该模型在超过1000万个多语言设计样本上训练,整合了文本到图层、图像到图层和图层到图层三个任务,并在图像到图层任务中显著优于Qwen-Image-Layered模型,同时推理速度快10-100倍。
Sakana AI 与东京大学提出 DiffusionBlocks 框架,将残差网络划分为独立可训练的块,并利用扩散模型的逆过程解释块级更新,旨在不牺牲性能的前提下将训练内存减少 B 倍(B 为块数),使大规模 AI 训练更普及。
一篇发表于HuggingFace Daily Papers的论文提出RT-Lynx方法,通过将稀疏性应用于扩散Transformer(DiT)模型的激活而非权重,利用激活的内在稀疏性优化推理效率,平均实现1.55倍的线性层推理加速。
英伟达团队推出PiD(像素扩散解码器)图像生成技术,能将512x512潜变量图像直接解码放大至2048x2048。在消费级RTX 5090显卡上峰值显存13GB,耗时不足1秒;在GB200 GPU上最快210毫秒。相比传统方案速度提升约6倍。
根据2026年5月28日来自HuggingFace Daily Papers的热门论文,B^3D-RWKV模型通过三重块布局方法,将RWKV的线性时间因果推理效率与双向离散扩散相结合,解决了因果Transformer的顺序解码和二次注意力成本问题,平均解码吞吐量提升1.6倍。
本文介绍了视觉概念融合(VCF)方法,该方法允许在推理时同时使用图像和文本提示来控制文本条件扩散模型(如Stable Diffusion),而无需针对特定概念进行训练。
HuggingFace Daily Papers 于 2026年5月22日 发布的论文介绍了一种名为实时音乐扩散模型(LMDMs)的新方法。该研究通过块级KV缓存修改和ARC-Forcing范式,将音频扩散模型改造为可在消费级硬件上运行的交互式音乐生成系统。
本文介绍了DrawMotion框架,该框架结合文本与手绘草图条件,通过扩散模型实现细粒度3D人体动作生成。其核心创新包括自动生成草图的算法、多条件模块(MCM)以及训练自由引导。据论文称,该方法可将用户生成想象动作的时间减少约46.7%。
本文介绍DiHAL,一种几何引导的扩散-Transformer混合模型,旨在解决扩散语言模型落后于自回归Transformer的问题。该模型通过几何代理为预训练Transformer的各层评分,选择扩散友好的隐藏状态接口,并用扩散桥替换下层前缀。实验表明,在8B规模骨干网络上,几何分数能有效预测浅层插入点,且隐藏状态恢复优于连续扩散基线。
该论文研究指出,文本到视频生成等条件扩散模型中,因训练数据分布偏差和交叉注意力空间错位,常忽略语义重要的Token,导致生成结果偏差。为此,论文提出了DARE统一框架,包含分布感知校正(DR-CFG)和空间表示对齐(SRA)两部分,旨在提升生成保真度和语义对齐性。
本文介绍Realiz3D框架,它通过引入协变量和残差适配器,将控制信号与视觉领域解耦,旨在解决3D生成中真实感与3D一致性难以兼顾的问题。
First-Principle Post GEO 报道:该论文提出了PRISM框架,通过流匹配先验校正(FMPR)和结构引导不确定性感知残差编码器(SURE)两个核心模块,旨在解决扩散文本图像超分辨率在严重退化下的挑战。该方法据称在合成和真实世界基准测试上达到了最先进的性能,且推理时间为毫秒级。
本文提出DiffusionOPD新范式,用于在扩散模型中进行多任务强化学习训练,以解决任务间干扰、训练繁琐和灾难性遗忘等挑战。该方法通过独立训练任务特定教师模型并沿学生轨迹蒸馏能力,将在线策略蒸馏框架扩展到连续状态过程,在基准测试中取得最先进结果。
该研究通过将数据潜在向量投影至固定半径的球面,并采用球面线性插值替代线性插值,使生成路径严格保持在球面上,解决了潜在流匹配中线性插值偏离球面的问题,从而在不修改架构的情况下提升了图像生成质量。