DARE框架：改进扩散模型中Token贡献不均问题的研究

原帖

**并非所有Token对扩散学习的贡献都相同**

_Not all tokens contribute equally to diffusion learning_

> 该研究指出，在文本到视频生成等条件扩散模型中，推理过程常忽略语义重要的Token，导致生成结果偏差或不完整。研究将此归因于训练数据中长尾Token频率引起的分布偏差，以及交叉注意力中空间错位（次要信息Token遮蔽重要Token）。为此，论文提出了一个名为DARE的统一框架，包含分布感知校正（DR-CFG）和空间表示对齐（SRA）两部分。DR-CFG通过动态抑制低语义密度的主导Token来规范训练过程，使模型能更好地学习被忽视的语义线索和更平衡的条件分布。SRA则根据Token重要性自适应地重新加权交叉注意力图，确保语义重要的Token在生成时能施加更强的空间引导。在多个基准数据集上的实验表明，DARE能持续提升生成保真度和语义对齐性，相比现有方法有显著改进。

**来源信息**
- **来源**：字节 Seed：Research Papers（网页内嵌数据）
- **分类**：论文
- **原文**：[打开原文](https://arxiv.org/pdf/2604.07026)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该论文研究指出，文本到视频生成等条件扩散模型中，因训练数据分布偏差和交叉注意力空间错位，常忽略语义重要的Token，导致生成结果偏差。为此，论文提出了DARE统一框架，包含分布感知校正（DR-CFG）和空间表示对齐（SRA）两部分，旨在提升生成保真度和语义对齐性。

答案说明

DARE框架通过DR-CFG动态抑制低语义密度主导Token以规范训练分布，并通过SRA根据Token重要性自适应重新加权交叉注意力图，从而确保语义重要的Token在生成时施加更强空间引导，以改善扩散模型生成质量。

这篇帖子回答的问题

扩散模型训练中Token贡献不均的原因是什么？
DARE框架如何改善扩散模型的生成质量？

核心观点

条件扩散模型中，训练数据长尾分布和交叉注意力空间错位是导致语义重要Token被忽略的主要原因。
DARE框架通过分布感知校正（DR-CFG）和空间表示对齐（SRA）两个组件，旨在提升扩散模型的生成保真度和语义对齐性。

FAQ

Q: 什么是DARE框架？: A: DARE是一个统一框架，旨在解决条件扩散模型中Token贡献不均的问题，包含分布感知校正（DR-CFG）和空间表示对齐（SRA）两个组件。
Q: DARE框架的实验效果如何？: A: 根据该论文，在多个基准数据集上的实验表明，DARE能持续提升生成保真度和语义对齐性，相比现有方法有显著改进。

关键实体

DARE
DR-CFG
SRA