AI News HubLIVE
站内改写2 分钟阅读

模型在预填充阶段做笔记:KV缓存变得可编辑且可组合

研究表明,大型语言模型在预填充阶段会将字段条件结论写入下游笔记,使得KV缓存具有可编辑性和可组合性。通过链式思维编辑字段即可恢复决策,而预编译的技能可通过RoPE重新定位并拼接至任意上下文,实现与完全重新计算几乎无差异的结果,同时延迟降低多达14.9倍。该方法适用于多种注意力和缓存变体,并在在线vLLM基准测试中保持98.5%的缓存命中率。

来源arXiv Machine Learning作者: Bojie Li

大型语言模型(LLM)的推理效率一直是研究热点,其中KV缓存技术通过缓存键值对来避免重复计算,显著加速生成过程。然而,传统的前缀缓存要求共享前缀完全一致,任何字段的变化都会导致整个下游缓存失效。最新研究《Models Take Notes at Prefill: KV Cache Can Be Editable and Composable》揭示了这一现象背后的深层原因,并提出了两种革命性能力:可编辑和可组合的KV缓存。

研究团队跨四个模型家族进行了因果分析,发现一个关键现象:在预填充阶段,模型不仅处理当前字段,还会将基于该字段得到的结论写入后续的“笔记”中。这些笔记实际上决定了模型的最终输出,而字段本身的键/值向量对决策的贡献不足1%。因此,仅仅覆盖字段本身的向量而保留下游缓存,模型仍然基于旧值做出判断。

基于这一认识,研究人员提出了两种新能力。首先是可编辑性:当需要修正错误时,只需通过链式思维(Chain-of-Thought)编辑相关字段,模型就会自动调整其笔记。实验表明,在8B模型上使用链式思维编辑字段,可以完全恢复正确决策,且仅需约1%的额外计算量;而如果直截了当地修改字段而不使用链式思维,修改将被忽略。其次是可组合性:由于笔记是位置无关的,可以将预编译的技能(例如特定的推理步骤)通过旋转位置编码(RoPE)进行位置调整后,无缝插入任意上下文中。这种方法的时间复杂度为O(L),而完全重新计算为O(L²),且两者的输出logit余弦相似度高达0.90至0.999。在一项实验中,统一的编辑+组合代理实现了与完全重新计算在决策上完全一致的输出,同时延迟降低最高达14.9倍。

该方法的通用性令人印象深刻。它不仅适用于任何基于逐token注意力的KV缓存,还在不同模型规模、量化版本、混合专家模型(MoE)以及多模态缓存中得到了验证。通过小型适配器,该方法还可扩展至多种注意力变体。此外,由于错误的修正是以追加形式进行的,它能够与生产级前缀缓存协同工作。在在线vLLM基准测试中,该方法保持了98.5%的缓存命中率,并将p90首次令牌生成时间降低了53至398倍。

这项研究为LLM推理优化开辟了新方向。通过将KV缓存视为可编辑和可组合的“笔记”,我们能够在保持决策质量的同时大幅提升效率。未来,这一方法有望在实时应用、模型微调场景以及在有限计算资源下部署大型模型时发挥关键作用。