OcclusionFormer:通过Z序排列实现布局可控的图像生成
本文介绍了OcclusionFormer,一种用于布局可控图像生成的遮挡感知扩散Transformer框架。它通过引入包含显式遮挡顺序和像素级标注的大规模数据集SA-Z,并利用解耦实例和体积渲染合成来建模Z序优先级,以解决现有模型处理物体遮挡时的不足。
First-Principle 上关于「扩散Transformer」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍了OcclusionFormer,一种用于布局可控图像生成的遮挡感知扩散Transformer框架。它通过引入包含显式遮挡顺序和像素级标注的大规模数据集SA-Z,并利用解耦实例和体积渲染合成来建模Z序优先级,以解决现有模型处理物体遮挡时的不足。