AI News HubLIVE
站内改写1 分钟阅读

随机KV路由:实现自适应的深度维度缓存共享

苹果机器学习研究提出随机KV路由方法,通过在训练中让各层随机选择关注自身或前一层的键值状态,实现跨层缓存共享,从而在不增加推理延迟的前提下显著减少KV缓存内存占用。实验表明,该技术适用于多种模型,且在数据受限场景中具有正则化效果,甚至能保持或提升性能。

苹果机器学习研究团队近日发表论文《随机KV路由:实现自适应的深度维度缓存共享》,提出一种新颖的方法来减少大语言模型推理时的键值(KV)缓存内存占用。KV缓存是自回归生成中避免重复计算的关键技术,但其巨大的内存需求严重影响了模型服务成本。该论文由Anastasiia Filippova、David Grangier、Marco Cuturi和João Monteiro共同撰写,发表于2026年5月。

当前研究主要沿时间轴对KV缓存进行压缩或驱逐,但苹果团队指出深度维度提供了正交且稳健的优化空间。尽管已有研究表明并非每一层都需要完整缓存,但实现跨层缓存共享在实践中仍面临挑战——现有方法往往牺牲吞吐量或增加首令牌延迟。该论文的核心创新是在训练过程中引入随机跨层注意力机制。具体而言,每层在训练时随机选择关注自身的KV状态或前一层的KV状态。这种随机过程使模型能够适应多种深度维度缓存共享策略,确保在部署时面对未知硬件约束的灵活性。

实验评估显示,将这一方案应用于预训练或微调阶段,可以使多种模型族实现深度维度缓存共享。值得注意的是,对于数据受限场景下的大模型,该方法表现出类似正则化的效应,不仅显著减小了缓存内存占用,还常常保持甚至提升了模型性能。这一研究为高效的大语言模型推理提供了新思路,有望降低部署成本并促进更广泛的应用。相关论文已发表于2026年5月,感兴趣的读者可访问苹果机器学习研究网站查阅全文。