**SEGA:用于扩散变压器分辨率外推的频谱能量引导注意力**

_SEGA: Spectral-Energy Guided Attention for Resolution Extrapolation in Diffusion Transformers_

> 本文针对扩散变压器(DiTs)在超出训练范围的分辨率下生成图像时性能下降的问题,提出了一种无需训练的方法SEGA。该方法通过在每一步去噪过程中,根据潜在表示的空间频率结构,动态调整注意力机制在旋转位置编码(RoPE)不同频率分量上的缩放。相比现有均匀且内容无关的RoPE外推方法,SEGA在保持全局结构和恢复细节之间取得了更好的平衡,显著提升了高分辨率图像合成的质量。实验表明,该方法在多种目标分辨率上均优于当前最先进的无需训练基线。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.22668)