AI News HubLIVE
站內改寫1 分鐘閱讀

層級全域性注意力(HGA)

層級全域性注意力(HGA)是一種即插即用的替代方案,用於預訓練長上下文Transformer中的密集因果注意力。它無需重新訓練或校準,即可在單個RTX 5090上實現64K token上下文,透過分層路由大幅降低GPU記憶體佔用,且質量損失極小。

來源arXiv Machine Learning作者: Woernle Frank, Fedosov Vladimir, Grinenko Artemiy

層級全域性注意力(Hierarchical Global Attention, HGA)是一種針對預訓練長上下文Transformer的新型稀疏注意力機制,可作為密集因果注意力的直接替代方案。該方法的核心優勢在於完全保留原始檢查點引數:預訓練中的W_Q、W_K、W_V和W_O投影保持原樣,無需引入任何校準引數,也無需進行重新訓練。這意味著任何已經預訓練好的模型都可以直接替換注意力層,而無需額外的微調步驟,大大降低了部署門檻。

研究團隊將HGA應用於Qwen3-30B-A3B-Instruct-2507-FP8模型,在單個RTX 5090(32GB)顯示卡上成功實現了64K token的上下文長度。在此硬體上,傳統的逐token K/V儲存方案不可行,因為32GB視訊記憶體無法容納完整的K/V快取。但HGA透過分層路由機制使這一目標成為可能,展示了其在資源受限裝置上的巨大潛力。

HGA區別於以往的稀疏注意力方法,其關鍵創新在於分層兩階段路由。首先,該方法使用緊湊的RoPE感知摘要來檢索相關塊;然後,透過僅路由最相關的組來細化選擇,最後在選定的token集上執行精確的逐token注意力。這種分層檢索顯著減少了需要獲取的token數量,同時保持了對檢索集的精確注意力,使得基於RAM和NVMe的儲存方案變得實用。具體而言,完整的歷史token K/V儲存在主機RAM或NVMe儲存中,而在注意力計算期間,只有少量的路由工作集被傳輸到GPU記憶體。因此,GPU記憶體消耗主要取決於模型權重和路由工作集,而非總上下文長度。

在4K到64K token的所有測試上下文長度下,HGA的路由注意力與密集註意力的差異保持在約0.01至0.02 nats範圍內,而使用的稀疏度僅為約3%。這些結果表明,分層路由引入的近似誤差很小,剩餘的質量差距很可能由長上下文位置編碼主導,而非路由演算法本身。該研究為在有限硬體上執行長上下文模型提供了切實可行的解決方案,對模型部署和推理效率具有重要影響。