SEGA:用于扩散变压器分辨率外推的频谱能量引导注意力
原帖
**SEGA:用于扩散变压器分辨率外推的频谱能量引导注意力**
_SEGA: Spectral-Energy Guided Attention for Resolution Extrapolation in Diffusion Transformers_
> 本文针对扩散变压器(DiTs)在超出训练范围的分辨率下生成图像时性能下降的问题,提出了一种无需训练的方法SEGA。该方法通过在每一步去噪过程中,根据潜在表示的空间频率结构,动态调整注意力机制在旋转位置编码(RoPE)不同频率分量上的缩放。相比现有均匀且内容无关的RoPE外推方法,SEGA在保持全局结构和恢复细节之间取得了更好的平衡,显著提升了高分辨率图像合成的质量。实验表明,该方法在多种目标分辨率上均优于当前最先进的无需训练基线。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.22668)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
一篇于2026年5月22日发布的论文提出了一种名为SEGA的无需训练方法,用于解决扩散变压器在超出训练分辨率时生成图像性能下降的问题。
答案说明
论文SEGA提出了一种无需训练的方法,通过根据潜在表示的频率结构动态调整注意力机制的缩放,来提升扩散变压器在超出训练分辨率时的图像生成质量。
这篇帖子回答的问题
- 扩散变压器在超出训练分辨率生成图像时存在什么问题?
- SEGA方法是如何解决扩散变压器分辨率外推问题的?
核心观点
- 一篇于2026年5月22日发布的论文提出了一种名为SEGA的无需训练方法,用于解决扩散变压器在超出训练分辨率时生成图像性能下降的问题。
FAQ
- Q: SEGA方法的核心创新是什么?
- A: SEGA方法的核心创新在于根据潜在表示的频率结构动态调整注意力机制的缩放,而非使用均匀且内容无关的RoPE外推方法。
关键实体
- SEGA
- 扩散变压器(DiTs)
- HuggingFace Daily Papers