2026-06-09站内改写1 分钟阅读更新: 2026-06-09

为扩散语言模型启用共享前缀的KV缓存

扩散语言模型（DLM）中的双向注意力机制导致传统KV缓存方法失效，模型精度近乎归零。本文提出双向前缀缓存（bicache），通过动态识别安全层深度重用共享前缀KV，实现36.3%-98.3%的吞吐量提升，且精度下降仅0-1.8%。

来源arXiv Machine Learning作者: Younghun Go, Jaehoon Han, Changyong Shin, Chuk Yoo, Gyeongsik Yang

扩散语言模型（DLM）作为新兴的生成模型，展现出强大的能力，但其服务吞吐量受到严重制约。关键值（KV）缓存是提高吞吐量的重要技术，然而，DLM采用双向注意力机制，任何令牌的更新都会动态改变整个上下文及其对应的KV。这使得为大语言模型（LLM）设计的传统KV缓存方法失效，因为后者假设KV一旦计算便保持不变。实验显示，直接应用LLM的缓存技术会导致DLM模型精度几乎降为零。

为了解决这一瓶颈，研究人员提出了双向前缀缓存（bicache），这是首个针对DLM中共享前缀的KV缓存技术。通过全面分析，他们发现共享前缀的KV在浅层网络中保持稳定且可重用，而浅层的深度取决于每个请求中共享前缀令牌的比例。基于此，bicache能够动态识别一个安全的层深度，在该深度以下重用共享前缀的KV，从而消除冗余计算。

评估结果表明，bicache显著提升了服务吞吐量，相比现有技术提升幅度达36.3%至98.3%，同时精度几乎不受影响（差异仅为0-1.8%）。该研究为DLM的高效部署提供了可行方案，有望推动扩散语言模型在实际应用中的广泛采用。该论文由Younghun Go等五位作者提交，于2026年5月26日发布在arXiv上，主题涵盖机器学习（cs.LG）和人工智能（cs.AI）。论文的详细内容可访问arXiv:2606.07571。bicache的设计基于对DLM注意力机制的深入分析，为后续研究提供了重要参考。