AI News HubLIVE
站内改写

NVIDIA AI 发布 Gated DeltaNet-2:一种在 Delta 规则中解耦擦除和写入的线性注意力层

NVIDIA 推出的 Gated DeltaNet-2 是一种线性注意力层,通过通道级擦除门和写入门解耦了记忆更新中的擦除与写入操作。在 1.3B 参数、100B FineWeb-Edu 令牌上训练,该模型在语言建模、常识推理和长上下文检索上超越了 Mamba-2、Gated DeltaNet、KDA 和 Mamba-3,尤其在 RULER 长上下文检索中提升显著。

文章情报

工程师进阶

要点

  • Gated DeltaNet-2 将标量门分解为通道级的擦除门(键轴)和写入门(值轴),分别控制旧内容的擦除和新内容的写入。
  • 该模型在 1.3B 参数下训练于 100B FineWeb-Edu 令牌,与基线模型相比,在多种基准测试中取得最佳平均表现。
  • 在 RULER 长上下文检索任务中,Gated DeltaNet-2 在 S-NIAH-3(2K)和 MK-NIAH-1(4K)上分别提升至 89.8 和 37.8,远超 KDA。

为什么重要

这条新闻值得关注,因为Gated DeltaNet-2 将标量门分解为通道级的擦除门(键轴)和写入门(值轴),分别控制旧内容的擦除和新内容的写入。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

线性注意力通过将无界的 KV 缓存压缩为固定大小的循环状态,实现了线性时间序列混合和恒定内存解码。然而,编辑这种压缩记忆而不打乱现有关联是一个难题。NVIDIA 发布的 Gated DeltaNet-2 正是针对这一瓶颈的新型线性注意力层,它通过两个通道级门将主动记忆编辑中的擦除和写入操作解耦。

在 Delta 规则模型中,早期工作如 Gated DeltaNet 和 KDA 使用单个标量门同时控制旧内容的擦除和新内容的写入。但这两个决策作用于状态的不同轴,将它们绑定在一起是一种建模限制。Gated DeltaNet-2 引入了 Gated Delta Rule-2,分别使用键轴上的通道级擦除门 b_t 和值轴上的通道级写入门 w_t。更新规则为:S_t = (I − k_t (b_t ⊙ k_t)⊤) D_t S_{t−1} + k_t (w_t ⊙ v_t)⊤,其中 D_t 是来自 KDA 的通道级衰减。当两个门退化为同一标量时,该更新恢复为 KDA;当衰减也退化为标量时,恢复为 Gated DeltaNet。

训练方面,该模型采用分块 WY 形式实现并行化,并设计了门感知的反向传播算法。在 Hopper GPU 上,融合的 WY 反向内核使用 2 到 4 个 warp。模型以 1.3B 参数在 100B FineWeb-Edu 令牌上训练,所有基线模型参数和循环状态大小均匹配。实验结果显示,Gated DeltaNet-2 在语言建模和常识推理上平均表现最佳(循环设置 53.11,混合设置 53.97),在 RULER 长上下文检索中提升最大,例如 S-NIAH-3(2K)从 63.2(KDA)提升至 89.8,MK-NIAH-1(4K)从 28.0 提升至 37.8。在真实世界检索任务中,该模型同样领先。

Gated DeltaNet-2 的官方实现已在 GitHub 上发布,包含 PyTorch 代码、Triton 内核和训练脚本。该模型采用 NVIDIA 源代码许可(非商业),论文可在仓库中获取。研究团队来自 NVIDIA,作者包括 Ali Hatamizadeh、Yejin Choi 和 Jan Kautz。