DARE框架:改进扩散模型中Token贡献不均问题的研究
原帖
**并非所有Token对扩散学习的贡献都相同**
_Not all tokens contribute equally to diffusion learning_
> 该研究指出,在文本到视频生成等条件扩散模型中,推理过程常忽略语义重要的Token,导致生成结果偏差或不完整。研究将此归因于训练数据中长尾Token频率引起的分布偏差,以及交叉注意力中空间错位(次要信息Token遮蔽重要Token)。为此,论文提出了一个名为DARE的统一框架,包含分布感知校正(DR-CFG)和空间表示对齐(SRA)两部分。DR-CFG通过动态抑制低语义密度的主导Token来规范训练过程,使模型能更好地学习被忽视的语义线索和更平衡的条件分布。SRA则根据Token重要性自适应地重新加权交叉注意力图,确保语义重要的Token在生成时能施加更强的空间引导。在多个基准数据集上的实验表明,DARE能持续提升生成保真度和语义对齐性,相比现有方法有显著改进。
**来源信息**
- **来源**:字节 Seed:Research Papers(网页内嵌数据)
- **分类**:论文
- **原文**:[打开原文](https://arxiv.org/pdf/2604.07026)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
该论文研究指出,文本到视频生成等条件扩散模型中,因训练数据分布偏差和交叉注意力空间错位,常忽略语义重要的Token,导致生成结果偏差。为此,论文提出了DARE统一框架,包含分布感知校正(DR-CFG)和空间表示对齐(SRA)两部分,旨在提升生成保真度和语义对齐性。
答案说明
DARE框架通过DR-CFG动态抑制低语义密度主导Token以规范训练分布,并通过SRA根据Token重要性自适应重新加权交叉注意力图,从而确保语义重要的Token在生成时施加更强空间引导,以改善扩散模型生成质量。
这篇帖子回答的问题
- 扩散模型训练中Token贡献不均的原因是什么?
- DARE框架如何改善扩散模型的生成质量?
核心观点
- 条件扩散模型中,训练数据长尾分布和交叉注意力空间错位是导致语义重要Token被忽略的主要原因。
- DARE框架通过分布感知校正(DR-CFG)和空间表示对齐(SRA)两个组件,旨在提升扩散模型的生成保真度和语义对齐性。
FAQ
- Q: 什么是DARE框架?
- A: DARE是一个统一框架,旨在解决条件扩散模型中Token贡献不均的问题,包含分布感知校正(DR-CFG)和空间表示对齐(SRA)两个组件。
- Q: DARE框架的实验效果如何?
- A: 根据该论文,在多个基准数据集上的实验表明,DARE能持续提升生成保真度和语义对齐性,相比现有方法有显著改进。
关键实体
- DARE
- DR-CFG
- SRA