Gated DeltaNet-2:解耦线性注意力中擦除与写入操作的新模型
原帖
**Gated DeltaNet-2:解耦线性注意力中的擦除与写入操作**
_Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention_
> 本文介绍了Gated DeltaNet-2模型,它通过引入通道级擦除门和写入门,解耦了线性注意力中内存擦除与写入操作,解决了现有模型(如Gated DeltaNet和KDA)中单标量门同时控制两种操作的限制。该模型在1.3B参数规模、100B FineWeb-Edu tokens训练下,在语言建模、常识推理和检索任务上表现优于Mamba-2、Gated DeltaNet、KDA和Mamba-3变体,尤其在长上下文RULER多键检索基准测试中优势显著。代码已在GitHub开源。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.22791)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍的Gated DeltaNet-2模型通过引入通道级擦除门和写入门,解耦了线性注意力中的内存擦除与写入操作。该模型在1.3B参数规模、100B FineWeb-Edu tokens训练下,在语言建模、常识推理和检索任务上表现优于多个基线模型。
答案说明
Gated DeltaNet-2通过使用独立的通道级擦除门和写入门来解耦线性注意力中的内存操作,解决了单标量门同时控制两种操作的限制,并在多项基准测试中表现优异。
这篇帖子回答的问题
- Gated DeltaNet-2如何解决线性注意力中擦除与写入操作的耦合问题?
核心观点
- 本文介绍的Gated DeltaNet-2模型通过引入通道级擦除门和写入门,解耦了线性注意力中的内存擦除与写入操作。该模型在1.3B参数规模、100B FineWeb-Edu tokens训练下,在语言建模、常识推理和检索任务上表现优于多个基线模型。
FAQ
- Q: Gated DeltaNet-2的代码是否开源?
- A: 根据文章,代码已在GitHub开源。
关键实体
- Gated DeltaNet-2
- 线性注意力