AI News HubLIVE
站內改寫1 分鐘閱讀

隨機KV路由:實現自適應的深度維度快取共享

蘋果機器學習研究提出隨機KV路由方法,透過在訓練中讓各層隨機選擇關注自身或前一層的鍵值狀態,實現跨層快取共享,從而在不增加推理延遲的前提下顯著減少KV快取記憶體佔用。實驗表明,該技術適用於多種模型,且在資料受限場景中具有正則化效果,甚至能保持或提升效能。

蘋果機器學習研究團隊近日發表論文《隨機KV路由:實現自適應的深度維度快取共享》,提出一種新穎的方法來減少大語言模型推理時的鍵值(KV)快取記憶體佔用。KV快取是自迴歸生成中避免重複計算的關鍵技術,但其巨大的記憶體需求嚴重影響了模型服務成本。該論文由Anastasiia Filippova、David Grangier、Marco Cuturi和João Monteiro共同撰寫,發表於2026年5月。

當前研究主要沿時間軸對KV快取進行壓縮或驅逐,但蘋果團隊指出深度維度提供了正交且穩健的最佳化空間。儘管已有研究表明並非每一層都需要完整快取,但實現跨層快取共享在實踐中仍面臨挑戰——現有方法往往犧牲吞吐量或增加首令牌延遲。該論文的核心創新是在訓練過程中引入隨機跨層注意力機制。具體而言,每層在訓練時隨機選擇關注自身的KV狀態或前一層的KV狀態。這種隨機過程使模型能夠適應多種深度維度快取共享策略,確保在部署時面對未知硬體約束的靈活性。

實驗評估顯示,將這一方案應用於預訓練或微調階段,可以使多種模型族實現深度維度快取共享。值得注意的是,對於資料受限場景下的大模型,該方法表現出類似正則化的效應,不僅顯著減小了快取記憶體佔用,還常常保持甚至提升了模型效能。這一研究為高效的大語言模型推理提供了新思路,有望降低部署成本並促進更廣泛的應用。相關論文已發表於2026年5月,感興趣的讀者可訪問蘋果機器學習研究網站查閱全文。