OcclusionFormer：通过Z序排列实现布局可控的图像生成

原帖

**OcclusionFormer：通过Z序排列实现布局可控的图像生成**

_OcclusionFormer: Arranging Z-Order for Layout-Grounded Image Generation_

> 针对布局到图像生成模型在处理物体遮挡时的不足，本文构建了一个包含显式遮挡顺序和像素级标注的大规模数据集SA-Z。基于此，提出OcclusionFormer，一种新颖的遮挡感知扩散Transformer框架，通过解耦实例并通过体积渲染合成来显式建模Z序优先级。该方法能有效减少重叠区域的歧义，确保正确的遮挡关系，并保持结构完整性，在多种场景中显著提高了生成准确性。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-21 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.21343)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了OcclusionFormer，一种用于布局可控图像生成的遮挡感知扩散Transformer框架。它通过引入包含显式遮挡顺序和像素级标注的大规模数据集SA-Z，并利用解耦实例和体积渲染合成来建模Z序优先级，以解决现有模型处理物体遮挡时的不足。

答案说明

OcclusionFormer是一种遮挡感知的扩散Transformer，用于布局到图像的生成。它通过构建一个包含显式遮挡顺序和像素级标注的SA-Z数据集，并采用解耦实例与体积渲染合成来显式建模Z序优先级，从而减少重叠区域的歧义，确保正确的遮挡关系并保持结构完整性。

这篇帖子回答的问题

OcclusionFormer解决了布局到图像生成中的什么问题？
OcclusionFormer如何建模物体之间的遮挡关系？

核心观点

OcclusionFormer通过构建包含显式遮挡顺序和像素级标注的大规模数据集SA-Z，为处理布局到图像生成中的遮挡问题提供了数据基础。
该方法通过解耦实例并通过体积渲染合成来显式建模Z序优先级，能有效减少重叠区域的歧义，确保正确的遮挡关系，并保持结构完整性。

FAQ

Q: OcclusionFormer是什么？: A: OcclusionFormer是一种遮挡感知的扩散Transformer框架，用于布局到图像的生成，通过建模Z序优先级来处理物体遮挡问题。
Q: OcclusionFormer如何改进布局到图像的生成质量？: A: 它通过解耦实例并通过体积渲染合成来显式建模Z序优先级，能有效减少重叠区域的歧义，确保正确的遮挡关系并保持结构完整性，从而在多种场景中显著提高了生成准确性。

关键实体

OcclusionFormer
SA-Z数据集

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题