2026-05-19站内改写1 分钟阅读更新: 2026-06-12

EpiCache：面向资源受限环境下的长期对话的片段式KV缓存管理

现代大语言模型（LLM）可处理百万级token的上下文，但键值（KV）缓存随对话历史线性增长，导致内存不足。现有压缩方法多在处理完整个上下文后才驱逐缓存，峰值内存不受控，且查询依赖的驱逐会窄化缓存语义。本文提出EpiCache，一种免训练的KV缓存管理框架，通过分块预填充限制缓存增长，并通过片段式KV压缩保留主题相关上下文。在三个基准测试上，EpiCache准确率提升高达30%，在4-6倍压缩下接近全缓存准确率，延迟和峰值内存分别降低2.4倍和3.7倍。

来源Apple Machine Learning Research

EpiCache是一种新型的键值（KV）缓存管理框架，由Minsoo Kim、Arnav Kundu、Han-Byul Kim、Richa Dixit和Minsik Cho于2026年5月提出，旨在解决大型语言模型（LLM）在长期对话中的内存瓶颈问题。随着LLM上下文长度扩展至百万级token，KV缓存的大小也线性增长，导致在资源受限的设备上内存迅速耗尽。现有的KV缓存压缩方法通常是在整个上下文处理完之后才进行缓存驱逐，这不仅导致峰值内存使用不受控制，而且查询相关的驱逐策略会使得缓存语义局限于单一查询，在多轮对话中容易失败。

为了应对这些挑战，研究人员提出了EpiCache，这是一种无需训练的框架，专门用于固定内存预算下的长对话问答（LongConvQA）。EpiCache通过两个关键机制来管理缓存：一是分块预填充（block-wise prefill），将输入分块处理，从而控制缓存的增长；二是片段式KV压缩（episodic KV compression），将对话历史聚类成连贯的片段，并对每个片段进行独立的KV缓存驱逐。这种方法能够在保持与主题相关的上下文的同时，有效限制内存使用。

在三个LongConvQA基准测试（LongMemEval、Realtalk和LoCoMo）上，EpiCache表现出色。与现有方法相比，它的准确率提高了高达30%，在4到6倍的压缩比下，其准确率接近使用完整缓存时的水平。此外，EpiCache还显著降低了延迟和峰值内存使用，分别最高减少了2.4倍和3.7倍。该研究为在资源受限环境中部署长期对话AI提供了一种高效且实用的解决方案。相关研究表明，KV缓存压缩是一个活跃的研究领域，例如Stochastic KV Routing（2026年5月）通过深度维度自适应共享缓存，以及CommVQ（2025年7月，ICML）使用可交换向量量化压缩KV缓存。EpiCache在这些工作中独树一帜，专注于长对话场景下的固定内存预算管理。