**MRT:用于大规模分层图像生成与编辑的遮罩区域Transformer**

_MRT: Masked Region Transformer for Layered Image Generation and Editing at Scale_

> 本文介绍了MRT,一个拥有200亿参数的遮罩区域扩散模型,专门用于多层透明图像的生成和编辑。该模型在超过1000万个多语言设计样本上进行训练,涵盖了多样化的长宽比和文本提示。MRT的关键技术贡献包括:1)在一个统一的遮罩区域扩散框架内整合了文本到图层、图像到图层和图层到图层三个互补任务;2)引入了溢出感知画布层,以处理边界不一致问题,支持生成超出可见画布边界的完全可编辑图层;3)通过扩散蒸馏实现了8步实时多层生成,且质量损失极小。实验表明,MRT在所有三个任务上都显著超越了包括各种商业系统在内的先前最佳方法,建立了多层透明图像生成的新基准。此外,在图像到图层任务中,MRT的用户研究结果显著优于同期的Qwen-Image-Layered模型,同时推理速度快10-100倍,并减少了50-90%的激活GPU内存消耗。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.27235)