AI News HubLIVE
站内改写1 分钟阅读

Dustin:面向高效长上下文生成的草稿增强稀疏验证方法

Dustin是一种专为长上下文场景设计的稀疏验证框架,通过结合草稿模型的预测信号与目标模型的歷史注意力,仅对关键token进行验证,显著加速推测解码中的KV缓存加载瓶颈。在Qwen2.5-72B上,32k序列长度下自注意力加速27.85倍,端到端解码加速9.17倍,精度损失可忽略。

来源arXiv Computational Linguistics作者: WenHung Lee, Jian-Jia Chen, Xiaolin Lin, Pei-Shuo Wang, Chi-Chih Chang, Chun-Che Yang, Ning-Chi Huang, Grace Li Zhang, Kai-Chiang Wu

长上下文大语言模型(LLM)的推理效率一直是一个关键挑战。推测解码(Speculative Decoding)通过使用轻量级草稿模型生成候选序列并由目标模型并行验证,能够有效提升吞吐量。然而,在处理长序列时,验证过程本身成为新的瓶颈:频繁加载键值(KV)缓存占据了绝大部分延迟。现有的KV缓存压缩方法难以胜任这一场景——静态驱逐会因注意力偏移导致精度损失,而动态选择则会在验证路径中引入过高的计算开销。

针对这一问题,来自研究团队的WenHung Lee等人在ICML 2026上提出了Dustin,一种面向长上下文推测解码的稀疏验证框架。Dustin的核心思想是:在验证阶段,仅需关注对生成结果至关重要的少量token。为此,它巧妙地将草稿模型中的前瞻信号(lookahead signals)与目标模型的歷史注意力分布相结合,从而在多步验证窗口内高保真地识别出关键token。为了进一步降低重计算延迟,Dustin还采用了一种稀疏估计方案,将重要性评分限制在极少数注意力头上。这种设计使得框架能够在保持高精度的同时,大幅减少计算量。实验基于PG-19和LongBench数据集,使用Qwen2.5-72B模型进行测试。结果显示,在32k序列长度下,Dustin实现了自注意力部分27.85倍的加速,端到端解码速度提升达到9.17倍,且精度下降微乎其微。该研究已被ICML 2026接收,论文共9页正文,并包含参考文献和附录。Dustin的提出为长上下文LLM的高效推理提供了新的思路,尤其适用于需要处理超长文档、代码库或对话历史的实际应用场景。未来,该技术有望在实时交互和资源受限的环境中发挥更大价值。