EpiCache: リソース制約環境での長期対話のためのエピソード的KVキャッシュ管理
最新の大規模言語モデル(LLM)は数百万トークンのコンテキストを処理できるようになったが、Key-Value(KV)キャッシュは対話履歴に比例して線形に増加し、メモリがデバイス制限を超える原因となる。既存の圧縮手法はコンテキスト全体を処理した後にキャッシュ退避を行うため、ピークメモリ使用量が制御不能になり、クエリ依存の退避はキャッシュセマンティクスを単一クエリに絞り込み、マルチターン対話で失敗する。本稿では、固定メモリ予算下での長期対話型質問応答(LongConvQA)のための、学習不要のKVキャッシュ管理フレームワークEpiCacheを提案する。EpiCacheはブロック単位のプリフィルによりキャッシュ成長を制限し、エピソード的KV圧縮によりトピック関連コンテキストを保持する。3つのベンチマークで、EpiCacheは最大30%の精度向上、4-6倍圧縮下でフルキャッシュに近い精度を達成し、レイテンシとピークメモリをそれぞれ最大2.4倍、3.7倍削減した。
EpiCacheは、Minsoo Kim、Arnav Kundu、Han-Byul Kim、Richa Dixit、Minsik Choによって2026年5月に発表された、大規模言語モデル(LLM)の長期対話におけるメモリボトルネックを解決するための新しいKey-Value(KV)キャッシュ管理フレームワークです。LLMのコンテキスト長が数百万トークンに拡張されるにつれて、KVキャッシュのサイズも線形に増加し、リソース制約のあるデバイスではメモリがすぐに枯渇します。既存のKVキャッシュ圧縮手法は、コンテキスト全体を処理した後にキャッシュ退避を行うため、ピークメモリ使用量が制御不能になり、クエリ依存の退避はキャッシュセマンティクスを単一クエリに限定するため、マルチターン対話で失敗することがありました。
これらの課題に対処するため、研究者らはEpiCacheを提案しました。これは、固定メモリ予算下での長期対話型質問応答(LongConvQA)のための学習不要のフレームワークです。EpiCacheは、ブロック単位のプリフィル(block-wise prefill)によりキャッシュの成長を制限し、エピソード的KV圧縮(episodic KV compression)により対話履歴を一貫したエピソードにクラスタリングし、エピソードごとにKVキャッシュ退避を行います。これにより、トピックに関連するコンテキストを保持しながら、メモリ使用量を効果的に制限します。
3つのLongConvQAベンチマーク(LongMemEval、Realtalk、LoCoMo)において、EpiCacheは優れた性能を示しました。既存手法と比較して、精度は最大30%向上し、4〜6倍の圧縮率ではフルキャッシュと同等の精度を達成しました。さらに、レイテンシとピークメモリはそれぞれ最大2.4倍、3.7倍削減されました。この研究は、リソース制約環境での長期対話AIの展開に効率的かつ実用的なソリューションを提供します。関連研究としては、Stochastic KV Routing(2026年5月)が深さ方向の適応的キャッシュ共有を提案し、CommVQ(2025年7月,ICML)が可換ベクトル量子化によるKVキャッシュ圧縮を提案しています。EpiCacheはこれらの研究の中で、長期間の対話における固定メモリ予算管理に特化しています。