2026-05-05 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

隨機KV路由：實現自適應的深度維度快取共享

蘋果機器學習研究提出隨機KV路由方法，透過在訓練中讓各層隨機選擇關注自身或前一層的鍵值狀態，實現跨層快取共享，從而在不增加推理延遲的前提下顯著減少KV快取記憶體佔用。實驗表明，該技術適用於多種模型，且在資料受限場景中具有正則化效果，甚至能保持或提升效能。

來源Apple Machine Learning Research

蘋果機器學習研究團隊近日發表論文《隨機KV路由：實現自適應的深度維度快取共享》，提出一種新穎的方法來減少大語言模型推理時的鍵值（KV）快取記憶體佔用。KV快取是自迴歸生成中避免重複計算的關鍵技術，但其巨大的記憶體需求嚴重影響了模型服務成本。該論文由Anastasiia Filippova、David Grangier、Marco Cuturi和João Monteiro共同撰寫，發表於2026年5月。

當前研究主要沿時間軸對KV快取進行壓縮或驅逐，但蘋果團隊指出深度維度提供了正交且穩健的最佳化空間。儘管已有研究表明並非每一層都需要完整快取，但實現跨層快取共享在實踐中仍面臨挑戰——現有方法往往犧牲吞吐量或增加首令牌延遲。該論文的核心創新是在訓練過程中引入隨機跨層注意力機制。具體而言，每層在訓練時隨機選擇關注自身的KV狀態或前一層的KV狀態。這種隨機過程使模型能夠適應多種深度維度快取共享策略，確保在部署時面對未知硬體約束的靈活性。

實驗評估顯示，將這一方案應用於預訓練或微調階段，可以使多種模型族實現深度維度快取共享。值得注意的是，對於資料受限場景下的大模型，該方法表現出類似正則化的效應，不僅顯著減小了快取記憶體佔用，還常常保持甚至提升了模型效能。這一研究為高效的大語言模型推理提供了新思路，有望降低部署成本並促進更廣泛的應用。相關論文已發表於2026年5月，感興趣的讀者可訪問蘋果機器學習研究網站查閱全文。