AI News HubLIVE
站内改写1 分钟阅读

为扩散语言模型启用共享前缀的KV缓存

扩散语言模型(DLM)中的双向注意力机制导致传统KV缓存方法失效,模型精度近乎归零。本文提出双向前缀缓存(bicache),通过动态识别安全层深度重用共享前缀KV,实现36.3%-98.3%的吞吐量提升,且精度下降仅0-1.8%。

来源arXiv Machine Learning作者: Younghun Go, Jaehoon Han, Changyong Shin, Chuk Yoo, Gyeongsik Yang

扩散语言模型(DLM)作为新兴的生成模型,展现出强大的能力,但其服务吞吐量受到严重制约。关键值(KV)缓存是提高吞吐量的重要技术,然而,DLM采用双向注意力机制,任何令牌的更新都会动态改变整个上下文及其对应的KV。这使得为大语言模型(LLM)设计的传统KV缓存方法失效,因为后者假设KV一旦计算便保持不变。实验显示,直接应用LLM的缓存技术会导致DLM模型精度几乎降为零。

为了解决这一瓶颈,研究人员提出了双向前缀缓存(bicache),这是首个针对DLM中共享前缀的KV缓存技术。通过全面分析,他们发现共享前缀的KV在浅层网络中保持稳定且可重用,而浅层的深度取决于每个请求中共享前缀令牌的比例。基于此,bicache能够动态识别一个安全的层深度,在该深度以下重用共享前缀的KV,从而消除冗余计算。

评估结果表明,bicache显著提升了服务吞吐量,相比现有技术提升幅度达36.3%至98.3%,同时精度几乎不受影响(差异仅为0-1.8%)。该研究为DLM的高效部署提供了可行方案,有望推动扩散语言模型在实际应用中的广泛采用。该论文由Younghun Go等五位作者提交,于2026年5月26日发布在arXiv上,主题涵盖机器学习(cs.LG)和人工智能(cs.AI)。论文的详细内容可访问arXiv:2606.07571。bicache的设计基于对DLM注意力机制的深入分析,为后续研究提供了重要参考。