AI News HubLIVE
站内改写

NVIDIA AI 釋出 Gated DeltaNet-2:一種在 Delta 規則中解耦擦除和寫入的線性注意力層

NVIDIA 推出的 Gated DeltaNet-2 是一種線性注意力層,透過通道級擦除門和寫入門解耦了記憶更新中的擦除與寫入操作。在 1.3B 引數、100B FineWeb-Edu 令牌上訓練,該模型在語言建模、常識推理和長上下文檢索上超越了 Mamba-2、Gated DeltaNet、KDA 和 Mamba-3,尤其在 RULER 長上下文檢索中提升顯著。

文章情報

工程師進階

要點

  • Gated DeltaNet-2 將標量門分解為通道級的擦除門(鍵軸)和寫入門(值軸),分別控制舊內容的擦除和新內容的寫入。
  • 該模型在 1.3B 引數下訓練於 100B FineWeb-Edu 令牌,與基線模型相比,在多種基準測試中取得最佳平均表現。
  • 在 RULER 長上下文檢索任務中,Gated DeltaNet-2 在 S-NIAH-3(2K)和 MK-NIAH-1(4K)上分別提升至 89.8 和 37.8,遠超 KDA。

為什麼重要

這條新聞值得關注,因為Gated DeltaNet-2 將標量門分解為通道級的擦除門(鍵軸)和寫入門(值軸),分別控制舊內容的擦除和新內容的寫入。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

線性注意力透過將無界的 KV 快取壓縮為固定大小的迴圈狀態,實現了線性時間序列混合和恆定記憶體解碼。然而,編輯這種壓縮記憶而不打亂現有關聯是一個難題。NVIDIA 釋出的 Gated DeltaNet-2 正是針對這一瓶頸的新型線性注意力層,它透過兩個通道級門將主動記憶編輯中的擦除和寫入操作解耦。

在 Delta 規則模型中,早期工作如 Gated DeltaNet 和 KDA 使用單個標量門同時控制舊內容的擦除和新內容的寫入。但這兩個決策作用於狀態的不同軸,將它們繫結在一起是一種建模限制。Gated DeltaNet-2 引入了 Gated Delta Rule-2,分別使用鍵軸上的通道級擦除門 b_t 和值軸上的通道級寫入門 w_t。更新規則為:S_t = (I − k_t (b_t ⊙ k_t)⊤) D_t S_{t−1} + k_t (w_t ⊙ v_t)⊤,其中 D_t 是來自 KDA 的通道級衰減。當兩個門退化為同一標量時,該更新恢復為 KDA;當衰減也退化為標量時,恢復為 Gated DeltaNet。

訓練方面,該模型採用分塊 WY 形式實現並行化,並設計了門感知的反向傳播演算法。在 Hopper GPU 上,融合的 WY 反向核心使用 2 到 4 個 warp。模型以 1.3B 引數在 100B FineWeb-Edu 令牌上訓練,所有基線模型引數和迴圈狀態大小均匹配。實驗結果顯示,Gated DeltaNet-2 在語言建模和常識推理上平均表現最佳(迴圈設定 53.11,混合設定 53.97),在 RULER 長上下文檢索中提升最大,例如 S-NIAH-3(2K)從 63.2(KDA)提升至 89.8,MK-NIAH-1(4K)從 28.0 提升至 37.8。在真實世界檢索任務中,該模型同樣領先。

Gated DeltaNet-2 的官方實現已在 GitHub 上釋出,包含 PyTorch 程式碼、Triton 核心和訓練指令碼。該模型採用 NVIDIA 原始碼許可(非商業),論文可在倉庫中獲取。研究團隊來自 NVIDIA,作者包括 Ali Hatamizadeh、Yejin Choi 和 Jan Kautz。