2026-05-24 15:42 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

NVIDIA AI 釋出 Gated DeltaNet-2：一種在 Delta 規則中解耦擦除和寫入的線性注意力層

NVIDIA 推出的 Gated DeltaNet-2 是一種線性注意力層，透過通道級擦除門和寫入門解耦了記憶更新中的擦除與寫入操作。在 1.3B 引數、100B FineWeb-Edu 令牌上訓練，該模型在語言建模、常識推理和長上下文檢索上超越了 Mamba-2、Gated DeltaNet、KDA 和 Mamba-3，尤其在 RULER 長上下文檢索中提升顯著。

來源MarkTechPost作者: Asif Razzaq

線性注意力透過將無界的 KV 快取壓縮為固定大小的迴圈狀態，實現了線性時間序列混合和恆定記憶體解碼。然而，編輯這種壓縮記憶而不打亂現有關聯是一個難題。NVIDIA 釋出的 Gated DeltaNet-2 正是針對這一瓶頸的新型線性注意力層，它透過兩個通道級門將主動記憶編輯中的擦除和寫入操作解耦。

在 Delta 規則模型中，早期工作如 Gated DeltaNet 和 KDA 使用單個標量門同時控制舊內容的擦除和新內容的寫入。但這兩個決策作用於狀態的不同軸，將它們繫結在一起是一種建模限制。Gated DeltaNet-2 引入了 Gated Delta Rule-2，分別使用鍵軸上的通道級擦除門 b_t 和值軸上的通道級寫入門 w_t。更新規則為：S_t = (I − k_t (b_t ⊙ k_t)⊤) D_t S_{t−1} + k_t (w_t ⊙ v_t)⊤，其中 D_t 是來自 KDA 的通道級衰減。當兩個門退化為同一標量時，該更新恢復為 KDA；當衰減也退化為標量時，恢復為 Gated DeltaNet。

訓練方面，該模型採用分塊 WY 形式實現並行化，並設計了門感知的反向傳播演算法。在 Hopper GPU 上，融合的 WY 反向核心使用 2 到 4 個 warp。模型以 1.3B 引數在 100B FineWeb-Edu 令牌上訓練，所有基線模型引數和迴圈狀態大小均匹配。實驗結果顯示，Gated DeltaNet-2 在語言建模和常識推理上平均表現最佳（迴圈設定 53.11，混合設定 53.97），在 RULER 長上下文檢索中提升最大，例如 S-NIAH-3（2K）從 63.2（KDA）提升至 89.8，MK-NIAH-1（4K）從 28.0 提升至 37.8。在真實世界檢索任務中，該模型同樣領先。

Gated DeltaNet-2 的官方實現已在 GitHub 上釋出，包含 PyTorch 程式碼、Triton 核心和訓練指令碼。該模型採用 NVIDIA 原始碼許可（非商業），論文可在倉庫中獲取。研究團隊來自 NVIDIA，作者包括 Ali Hatamizadeh、Yejin Choi 和 Jan Kautz。