2026-05-24 15:42 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

NVIDIA AI 发布 Gated DeltaNet-2：一种在 Delta 规则中解耦擦除和写入的线性注意力层

NVIDIA 推出的 Gated DeltaNet-2 是一种线性注意力层，通过通道级擦除门和写入门解耦了记忆更新中的擦除与写入操作。在 1.3B 参数、100B FineWeb-Edu 令牌上训练，该模型在语言建模、常识推理和长上下文检索上超越了 Mamba-2、Gated DeltaNet、KDA 和 Mamba-3，尤其在 RULER 长上下文检索中提升显著。

来源MarkTechPost作者: Asif Razzaq

线性注意力通过将无界的 KV 缓存压缩为固定大小的循环状态，实现了线性时间序列混合和恒定内存解码。然而，编辑这种压缩记忆而不打乱现有关联是一个难题。NVIDIA 发布的 Gated DeltaNet-2 正是针对这一瓶颈的新型线性注意力层，它通过两个通道级门将主动记忆编辑中的擦除和写入操作解耦。

在 Delta 规则模型中，早期工作如 Gated DeltaNet 和 KDA 使用单个标量门同时控制旧内容的擦除和新内容的写入。但这两个决策作用于状态的不同轴，将它们绑定在一起是一种建模限制。Gated DeltaNet-2 引入了 Gated Delta Rule-2，分别使用键轴上的通道级擦除门 b_t 和值轴上的通道级写入门 w_t。更新规则为：S_t = (I − k_t (b_t ⊙ k_t)⊤) D_t S_{t−1} + k_t (w_t ⊙ v_t)⊤，其中 D_t 是来自 KDA 的通道级衰减。当两个门退化为同一标量时，该更新恢复为 KDA；当衰减也退化为标量时，恢复为 Gated DeltaNet。

训练方面，该模型采用分块 WY 形式实现并行化，并设计了门感知的反向传播算法。在 Hopper GPU 上，融合的 WY 反向内核使用 2 到 4 个 warp。模型以 1.3B 参数在 100B FineWeb-Edu 令牌上训练，所有基线模型参数和循环状态大小均匹配。实验结果显示，Gated DeltaNet-2 在语言建模和常识推理上平均表现最佳（循环设置 53.11，混合设置 53.97），在 RULER 长上下文检索中提升最大，例如 S-NIAH-3（2K）从 63.2（KDA）提升至 89.8，MK-NIAH-1（4K）从 28.0 提升至 37.8。在真实世界检索任务中，该模型同样领先。

Gated DeltaNet-2 的官方实现已在 GitHub 上发布，包含 PyTorch 代码、Triton 内核和训练脚本。该模型采用 NVIDIA 源代码许可（非商业），论文可在仓库中获取。研究团队来自 NVIDIA，作者包括 Ali Hatamizadeh、Yejin Choi 和 Jan Kautz。