EpiCache:面向資源受限環境下的長期對話的片段式KV緩存管理
現代大語言模型(LLM)可處理百萬級token的上下文,但鍵值(KV)緩存隨對話歷史線性增長,導致內存不足。現有壓縮方法多在處理完整個上下文後才驅逐緩存,峯值內存不受控,且查詢依賴的驅逐會窄化緩存語義。本文提出EpiCache,一種免訓練的KV緩存管理框架,通過分塊預填充限制緩存增長,並通過片段式KV壓縮保留主題相關上下文。在三個基準測試上,EpiCache準確率提升高達30%,在4-6倍壓縮下接近全緩存準確率,延遲和峯值內存分別降低2.4倍和3.7倍。
EpiCache是一種新型的鍵值(KV)緩存管理框架,由Minsoo Kim、Arnav Kundu、Han-Byul Kim、Richa Dixit和Minsik Cho於2026年5月提出,旨在解決大型語言模型(LLM)在長期對話中的內存瓶頸問題。隨着LLM上下文長度擴展至百萬級token,KV緩存的大小也線性增長,導致在資源受限的設備上內存迅速耗盡。現有的KV緩存壓縮方法通常是在整個上下文處理完之後才進行緩存驅逐,這不僅導致峯值內存使用不受控制,而且查詢相關的驅逐策略會使得緩存語義侷限於單一查詢,在多輪對話中容易失敗。
為了應對這些挑戰,研究人員提出了EpiCache,這是一種無需訓練的框架,專門用於固定內存預算下的長對話問答(LongConvQA)。EpiCache通過兩個關鍵機制來管理緩存:一是分塊預填充(block-wise prefill),將輸入分塊處理,從而控制緩存的增長;二是片段式KV壓縮(episodic KV compression),將對話歷史聚類成連貫的片段,並對每個片段進行獨立的KV緩存驅逐。這種方法能夠在保持與主題相關的上下文的同時,有效限制內存使用。
在三個LongConvQA基準測試(LongMemEval、Realtalk和LoCoMo)上,EpiCache表現出色。與現有方法相比,它的準確率提高了高達30%,在4到6倍的壓縮比下,其準確率接近使用完整緩存時的水平。此外,EpiCache還顯著降低了延遲和峯值內存使用,分別最高減少了2.4倍和3.7倍。該研究為在資源受限環境中部署長期對話AI提供了一種高效且實用的解決方案。相關研究表明,KV緩存壓縮是一個活躍的研究領域,例如Stochastic KV Routing(2026年5月)通過深度維度自適應共享緩存,以及CommVQ(2025年7月,ICML)使用可交換向量量化壓縮KV緩存。EpiCache在這些工作中獨樹一幟,專注於長對話場景下的固定內存預算管理。