2026-06-17站内改写2 分钟阅读更新: 2026-06-17

模型在预填充阶段做笔记：KV缓存变得可编辑且可组合

研究表明，大型语言模型在预填充阶段会将字段条件结论写入下游笔记，使得KV缓存具有可编辑性和可组合性。通过链式思维编辑字段即可恢复决策，而预编译的技能可通过RoPE重新定位并拼接至任意上下文，实现与完全重新计算几乎无差异的结果，同时延迟降低多达14.9倍。该方法适用于多种注意力和缓存变体，并在在线vLLM基准测试中保持98.5%的缓存命中率。

来源arXiv Machine Learning作者: Bojie Li

大型语言模型（LLM）的推理效率一直是研究热点，其中KV缓存技术通过缓存键值对来避免重复计算，显著加速生成过程。然而，传统的前缀缓存要求共享前缀完全一致，任何字段的变化都会导致整个下游缓存失效。最新研究《Models Take Notes at Prefill: KV Cache Can Be Editable and Composable》揭示了这一现象背后的深层原因，并提出了两种革命性能力：可编辑和可组合的KV缓存。

研究团队跨四个模型家族进行了因果分析，发现一个关键现象：在预填充阶段，模型不仅处理当前字段，还会将基于该字段得到的结论写入后续的“笔记”中。这些笔记实际上决定了模型的最终输出，而字段本身的键/值向量对决策的贡献不足1%。因此，仅仅覆盖字段本身的向量而保留下游缓存，模型仍然基于旧值做出判断。

基于这一认识，研究人员提出了两种新能力。首先是可编辑性：当需要修正错误时，只需通过链式思维（Chain-of-Thought）编辑相关字段，模型就会自动调整其笔记。实验表明，在8B模型上使用链式思维编辑字段，可以完全恢复正确决策，且仅需约1%的额外计算量；而如果直截了当地修改字段而不使用链式思维，修改将被忽略。其次是可组合性：由于笔记是位置无关的，可以将预编译的技能（例如特定的推理步骤）通过旋转位置编码（RoPE）进行位置调整后，无缝插入任意上下文中。这种方法的时间复杂度为O(L)，而完全重新计算为O(L²)，且两者的输出logit余弦相似度高达0.90至0.999。在一项实验中，统一的编辑+组合代理实现了与完全重新计算在决策上完全一致的输出，同时延迟降低最高达14.9倍。

该方法的通用性令人印象深刻。它不仅适用于任何基于逐token注意力的KV缓存，还在不同模型规模、量化版本、混合专家模型（MoE）以及多模态缓存中得到了验证。通过小型适配器，该方法还可扩展至多种注意力变体。此外，由于错误的修正是以追加形式进行的，它能够与生产级前缀缓存协同工作。在在线vLLM基准测试中，该方法保持了98.5%的缓存命中率，并将p90首次令牌生成时间降低了53至398倍。

这项研究为LLM推理优化开辟了新方向。通过将KV缓存视为可编辑和可组合的“笔记”，我们能够在保持决策质量的同时大幅提升效率。未来，这一方法有望在实时应用、模型微调场景以及在有限计算资源下部署大型模型时发挥关键作用。