**并非所有Token对扩散学习的贡献都相同**

_Not all tokens contribute equally to diffusion learning_

> 该研究指出,在文本到视频生成等条件扩散模型中,推理过程常忽略语义重要的Token,导致生成结果偏差或不完整。研究将此归因于训练数据中长尾Token频率引起的分布偏差,以及交叉注意力中空间错位(次要信息Token遮蔽重要Token)。为此,论文提出了一个名为DARE的统一框架,包含分布感知校正(DR-CFG)和空间表示对齐(SRA)两部分。DR-CFG通过动态抑制低语义密度的主导Token来规范训练过程,使模型能更好地学习被忽视的语义线索和更平衡的条件分布。SRA则根据Token重要性自适应地重新加权交叉注意力图,确保语义重要的Token在生成时能施加更强的空间引导。在多个基准数据集上的实验表明,DARE能持续提升生成保真度和语义对齐性,相比现有方法有显著改进。

**来源信息**
- **来源**:字节 Seed:Research Papers(网页内嵌数据)
- **分类**:论文
- **原文**:[打开原文](https://arxiv.org/pdf/2604.07026)