AI News HubLIVE
站内改写1 分钟阅读

EpiCache:面向资源受限环境下的长期对话的片段式KV缓存管理

现代大语言模型(LLM)可处理百万级token的上下文,但键值(KV)缓存随对话历史线性增长,导致内存不足。现有压缩方法多在处理完整个上下文后才驱逐缓存,峰值内存不受控,且查询依赖的驱逐会窄化缓存语义。本文提出EpiCache,一种免训练的KV缓存管理框架,通过分块预填充限制缓存增长,并通过片段式KV压缩保留主题相关上下文。在三个基准测试上,EpiCache准确率提升高达30%,在4-6倍压缩下接近全缓存准确率,延迟和峰值内存分别降低2.4倍和3.7倍。

EpiCache是一种新型的键值(KV)缓存管理框架,由Minsoo Kim、Arnav Kundu、Han-Byul Kim、Richa Dixit和Minsik Cho于2026年5月提出,旨在解决大型语言模型(LLM)在长期对话中的内存瓶颈问题。随着LLM上下文长度扩展至百万级token,KV缓存的大小也线性增长,导致在资源受限的设备上内存迅速耗尽。现有的KV缓存压缩方法通常是在整个上下文处理完之后才进行缓存驱逐,这不仅导致峰值内存使用不受控制,而且查询相关的驱逐策略会使得缓存语义局限于单一查询,在多轮对话中容易失败。

为了应对这些挑战,研究人员提出了EpiCache,这是一种无需训练的框架,专门用于固定内存预算下的长对话问答(LongConvQA)。EpiCache通过两个关键机制来管理缓存:一是分块预填充(block-wise prefill),将输入分块处理,从而控制缓存的增长;二是片段式KV压缩(episodic KV compression),将对话历史聚类成连贯的片段,并对每个片段进行独立的KV缓存驱逐。这种方法能够在保持与主题相关的上下文的同时,有效限制内存使用。

在三个LongConvQA基准测试(LongMemEval、Realtalk和LoCoMo)上,EpiCache表现出色。与现有方法相比,它的准确率提高了高达30%,在4到6倍的压缩比下,其准确率接近使用完整缓存时的水平。此外,EpiCache还显著降低了延迟和峰值内存使用,分别最高减少了2.4倍和3.7倍。该研究为在资源受限环境中部署长期对话AI提供了一种高效且实用的解决方案。相关研究表明,KV缓存压缩是一个活跃的研究领域,例如Stochastic KV Routing(2026年5月)通过深度维度自适应共享缓存,以及CommVQ(2025年7月,ICML)使用可交换向量量化压缩KV缓存。EpiCache在这些工作中独树一帜,专注于长对话场景下的固定内存预算管理。