2026-05-05 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

隨機KV路由：實現自適應的深度維度緩存共享

蘋果機器學習研究提出隨機KV路由方法，通過在訓練中讓各層隨機選擇關注自身或前一層的鍵值狀態，實現跨層緩存共享，從而在不增加推理延遲的前提下顯著減少KV緩存內存佔用。實驗表明，該技術適用於多種模型，且在數據受限場景中具有正則化效果，甚至能保持或提升性能。

來源Apple Machine Learning Research

蘋果機器學習研究團隊近日發表論文《隨機KV路由：實現自適應的深度維度緩存共享》，提出一種新穎的方法來減少大語言模型推理時的鍵值（KV）緩存內存佔用。KV緩存是自迴歸生成中避免重複計算的關鍵技術，但其巨大的內存需求嚴重影響了模型服務成本。該論文由Anastasiia Filippova、David Grangier、Marco Cuturi和João Monteiro共同撰寫，發表於2026年5月。

當前研究主要沿時間軸對KV緩存進行壓縮或驅逐，但蘋果團隊指出深度維度提供了正交且穩健的優化空間。儘管已有研究表明並非每一層都需要完整緩存，但實現跨層緩存共享在實踐中仍面臨挑戰——現有方法往往犧牲吞吐量或增加首令牌延遲。該論文的核心創新是在訓練過程中引入隨機跨層注意力機制。具體而言，每層在訓練時隨機選擇關注自身的KV狀態或前一層的KV狀態。這種隨機過程使模型能夠適應多種深度維度緩存共享策略，確保在部署時面對未知硬件約束的靈活性。

實驗評估顯示，將這一方案應用於預訓練或微調階段，可以使多種模型族實現深度維度緩存共享。值得注意的是，對於數據受限場景下的大模型，該方法表現出類似正則化的效應，不僅顯著減小了緩存內存佔用，還常常保持甚至提升了模型性能。這一研究為高效的大語言模型推理提供了新思路，有望降低部署成本並促進更廣泛的應用。相關論文已發表於2026年5月，感興趣的讀者可訪問蘋果機器學習研究網站查閲全文。