2026-05-05 08:00 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

随机KV路由：实现自适应的深度维度缓存共享

苹果机器学习研究提出随机KV路由方法，通过在训练中让各层随机选择关注自身或前一层的键值状态，实现跨层缓存共享，从而在不增加推理延迟的前提下显著减少KV缓存内存占用。实验表明，该技术适用于多种模型，且在数据受限场景中具有正则化效果，甚至能保持或提升性能。

来源Apple Machine Learning Research

苹果机器学习研究团队近日发表论文《随机KV路由：实现自适应的深度维度缓存共享》，提出一种新颖的方法来减少大语言模型推理时的键值（KV）缓存内存占用。KV缓存是自回归生成中避免重复计算的关键技术，但其巨大的内存需求严重影响了模型服务成本。该论文由Anastasiia Filippova、David Grangier、Marco Cuturi和João Monteiro共同撰写，发表于2026年5月。

当前研究主要沿时间轴对KV缓存进行压缩或驱逐，但苹果团队指出深度维度提供了正交且稳健的优化空间。尽管已有研究表明并非每一层都需要完整缓存，但实现跨层缓存共享在实践中仍面临挑战——现有方法往往牺牲吞吐量或增加首令牌延迟。该论文的核心创新是在训练过程中引入随机跨层注意力机制。具体而言，每层在训练时随机选择关注自身的KV状态或前一层的KV状态。这种随机过程使模型能够适应多种深度维度缓存共享策略，确保在部署时面对未知硬件约束的灵活性。

实验评估显示，将这一方案应用于预训练或微调阶段，可以使多种模型族实现深度维度缓存共享。值得注意的是，对于数据受限场景下的大模型，该方法表现出类似正则化的效应，不仅显著减小了缓存内存占用，还常常保持甚至提升了模型性能。这一研究为高效的大语言模型推理提供了新思路，有望降低部署成本并促进更广泛的应用。相关论文已发表于2026年5月，感兴趣的读者可访问苹果机器学习研究网站查阅全文。