OcclusionFormer:通过Z序排列实现布局可控的图像生成
原帖
**OcclusionFormer:通过Z序排列实现布局可控的图像生成**
_OcclusionFormer: Arranging Z-Order for Layout-Grounded Image Generation_
> 针对布局到图像生成模型在处理物体遮挡时的不足,本文构建了一个包含显式遮挡顺序和像素级标注的大规模数据集SA-Z。基于此,提出OcclusionFormer,一种新颖的遮挡感知扩散Transformer框架,通过解耦实例并通过体积渲染合成来显式建模Z序优先级。该方法能有效减少重叠区域的歧义,确保正确的遮挡关系,并保持结构完整性,在多种场景中显著提高了生成准确性。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.21343)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了OcclusionFormer,一种用于布局可控图像生成的遮挡感知扩散Transformer框架。它通过引入包含显式遮挡顺序和像素级标注的大规模数据集SA-Z,并利用解耦实例和体积渲染合成来建模Z序优先级,以解决现有模型处理物体遮挡时的不足。
答案说明
OcclusionFormer是一种遮挡感知的扩散Transformer,用于布局到图像的生成。它通过构建一个包含显式遮挡顺序和像素级标注的SA-Z数据集,并采用解耦实例与体积渲染合成来显式建模Z序优先级,从而减少重叠区域的歧义,确保正确的遮挡关系并保持结构完整性。
这篇帖子回答的问题
- OcclusionFormer解决了布局到图像生成中的什么问题?
- OcclusionFormer如何建模物体之间的遮挡关系?
核心观点
- OcclusionFormer通过构建包含显式遮挡顺序和像素级标注的大规模数据集SA-Z,为处理布局到图像生成中的遮挡问题提供了数据基础。
- 该方法通过解耦实例并通过体积渲染合成来显式建模Z序优先级,能有效减少重叠区域的歧义,确保正确的遮挡关系,并保持结构完整性。
FAQ
- Q: OcclusionFormer是什么?
- A: OcclusionFormer是一种遮挡感知的扩散Transformer框架,用于布局到图像的生成,通过建模Z序优先级来处理物体遮挡问题。
- Q: OcclusionFormer如何改进布局到图像的生成质量?
- A: 它通过解耦实例并通过体积渲染合成来显式建模Z序优先级,能有效减少重叠区域的歧义,确保正确的遮挡关系并保持结构完整性,从而在多种场景中显著提高了生成准确性。
关键实体
- OcclusionFormer
- SA-Z数据集