Gated DeltaNet-2:解耦线性注意力中擦除与写入操作的新模型
本文介绍的Gated DeltaNet-2模型通过引入通道级擦除门和写入门,解耦了线性注意力中的内存擦除与写入操作。该模型在1.3B参数规模、100B FineWeb-Edu tokens训练下,在语言建模、常识推理和检索任务上表现优于多个基线模型。
First-Principle 上关于「线性注意力」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍的Gated DeltaNet-2模型通过引入通道级擦除门和写入门,解耦了线性注意力中的内存擦除与写入操作。该模型在1.3B参数规模、100B FineWeb-Edu tokens训练下,在语言建模、常识推理和检索任务上表现优于多个基线模型。