**Gated DeltaNet-2:解耦线性注意力中的擦除与写入操作**

_Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention_

> 本文介绍了Gated DeltaNet-2模型,它通过引入通道级擦除门和写入门,解耦了线性注意力中内存擦除与写入操作,解决了现有模型(如Gated DeltaNet和KDA)中单标量门同时控制两种操作的限制。该模型在1.3B参数规模、100B FineWeb-Edu tokens训练下,在语言建模、常识推理和检索任务上表现优于Mamba-2、Gated DeltaNet、KDA和Mamba-3变体,尤其在长上下文RULER多键检索基准测试中优势显著。代码已在GitHub开源。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.22791)