2026-05-19站内改写1 分鐘閱讀更新: 2026-06-12

EpiCache：面向資源受限環境下的長期對話的片段式KV緩存管理

現代大語言模型（LLM）可處理百萬級token的上下文，但鍵值（KV）緩存隨對話歷史線性增長，導致內存不足。現有壓縮方法多在處理完整個上下文後才驅逐緩存，峯值內存不受控，且查詢依賴的驅逐會窄化緩存語義。本文提出EpiCache，一種免訓練的KV緩存管理框架，通過分塊預填充限制緩存增長，並通過片段式KV壓縮保留主題相關上下文。在三個基準測試上，EpiCache準確率提升高達30%，在4-6倍壓縮下接近全緩存準確率，延遲和峯值內存分別降低2.4倍和3.7倍。

來源Apple Machine Learning Research

EpiCache是一種新型的鍵值（KV）緩存管理框架，由Minsoo Kim、Arnav Kundu、Han-Byul Kim、Richa Dixit和Minsik Cho於2026年5月提出，旨在解決大型語言模型（LLM）在長期對話中的內存瓶頸問題。隨着LLM上下文長度擴展至百萬級token，KV緩存的大小也線性增長，導致在資源受限的設備上內存迅速耗盡。現有的KV緩存壓縮方法通常是在整個上下文處理完之後才進行緩存驅逐，這不僅導致峯值內存使用不受控制，而且查詢相關的驅逐策略會使得緩存語義侷限於單一查詢，在多輪對話中容易失敗。

為了應對這些挑戰，研究人員提出了EpiCache，這是一種無需訓練的框架，專門用於固定內存預算下的長對話問答（LongConvQA）。EpiCache通過兩個關鍵機制來管理緩存：一是分塊預填充（block-wise prefill），將輸入分塊處理，從而控制緩存的增長；二是片段式KV壓縮（episodic KV compression），將對話歷史聚類成連貫的片段，並對每個片段進行獨立的KV緩存驅逐。這種方法能夠在保持與主題相關的上下文的同時，有效限制內存使用。

在三個LongConvQA基準測試（LongMemEval、Realtalk和LoCoMo）上，EpiCache表現出色。與現有方法相比，它的準確率提高了高達30%，在4到6倍的壓縮比下，其準確率接近使用完整緩存時的水平。此外，EpiCache還顯著降低了延遲和峯值內存使用，分別最高減少了2.4倍和3.7倍。該研究為在資源受限環境中部署長期對話AI提供了一種高效且實用的解決方案。相關研究表明，KV緩存壓縮是一個活躍的研究領域，例如Stochastic KV Routing（2026年5月）通過深度維度自適應共享緩存，以及CommVQ（2025年7月，ICML）使用可交換向量量化壓縮KV緩存。EpiCache在這些工作中獨樹一幟，專注於長對話場景下的固定內存預算管理。