AI News HubLIVE
站內改寫1 分鐘閱讀

隨機KV路由:實現自適應的深度維度緩存共享

蘋果機器學習研究提出隨機KV路由方法,通過在訓練中讓各層隨機選擇關注自身或前一層的鍵值狀態,實現跨層緩存共享,從而在不增加推理延遲的前提下顯著減少KV緩存內存佔用。實驗表明,該技術適用於多種模型,且在數據受限場景中具有正則化效果,甚至能保持或提升性能。

蘋果機器學習研究團隊近日發表論文《隨機KV路由:實現自適應的深度維度緩存共享》,提出一種新穎的方法來減少大語言模型推理時的鍵值(KV)緩存內存佔用。KV緩存是自迴歸生成中避免重複計算的關鍵技術,但其巨大的內存需求嚴重影響了模型服務成本。該論文由Anastasiia Filippova、David Grangier、Marco Cuturi和João Monteiro共同撰寫,發表於2026年5月。

當前研究主要沿時間軸對KV緩存進行壓縮或驅逐,但蘋果團隊指出深度維度提供了正交且穩健的優化空間。儘管已有研究表明並非每一層都需要完整緩存,但實現跨層緩存共享在實踐中仍面臨挑戰——現有方法往往犧牲吞吐量或增加首令牌延遲。該論文的核心創新是在訓練過程中引入隨機跨層注意力機制。具體而言,每層在訓練時隨機選擇關注自身的KV狀態或前一層的KV狀態。這種隨機過程使模型能夠適應多種深度維度緩存共享策略,確保在部署時面對未知硬件約束的靈活性。

實驗評估顯示,將這一方案應用於預訓練或微調階段,可以使多種模型族實現深度維度緩存共享。值得注意的是,對於數據受限場景下的大模型,該方法表現出類似正則化的效應,不僅顯著減小了緩存內存佔用,還常常保持甚至提升了模型性能。這一研究為高效的大語言模型推理提供了新思路,有望降低部署成本並促進更廣泛的應用。相關論文已發表於2026年5月,感興趣的讀者可訪問蘋果機器學習研究網站查閲全文。