2026-06-25 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-25 15:53 UTC+8

Dustin：面向高效长上下文生成的草稿增强稀疏验证方法

Dustin是一种专为长上下文场景设计的稀疏验证框架，通过结合草稿模型的预测信号与目标模型的歷史注意力，仅对关键token进行验证，显著加速推测解码中的KV缓存加载瓶颈。在Qwen2.5-72B上，32k序列长度下自注意力加速27.85倍，端到端解码加速9.17倍，精度损失可忽略。

来源arXiv Computational Linguistics作者: WenHung Lee, Jian-Jia Chen, Xiaolin Lin, Pei-Shuo Wang, Chi-Chih Chang, Chun-Che Yang, Ning-Chi Huang, Grace Li Zhang, Kai-Chiang Wu

长上下文大语言模型（LLM）的推理效率一直是一个关键挑战。推测解码（Speculative Decoding）通过使用轻量级草稿模型生成候选序列并由目标模型并行验证，能够有效提升吞吐量。然而，在处理长序列时，验证过程本身成为新的瓶颈：频繁加载键值（KV）缓存占据了绝大部分延迟。现有的KV缓存压缩方法难以胜任这一场景——静态驱逐会因注意力偏移导致精度损失，而动态选择则会在验证路径中引入过高的计算开销。

针对这一问题，来自研究团队的WenHung Lee等人在ICML 2026上提出了Dustin，一种面向长上下文推测解码的稀疏验证框架。Dustin的核心思想是：在验证阶段，仅需关注对生成结果至关重要的少量token。为此，它巧妙地将草稿模型中的前瞻信号（lookahead signals）与目标模型的歷史注意力分布相结合，从而在多步验证窗口内高保真地识别出关键token。为了进一步降低重计算延迟，Dustin还采用了一种稀疏估计方案，将重要性评分限制在极少数注意力头上。这种设计使得框架能够在保持高精度的同时，大幅减少计算量。实验基于PG-19和LongBench数据集，使用Qwen2.5-72B模型进行测试。结果显示，在32k序列长度下，Dustin实现了自注意力部分27.85倍的加速，端到端解码速度提升达到9.17倍，且精度下降微乎其微。该研究已被ICML 2026接收，论文共9页正文，并包含参考文献和附录。Dustin的提出为长上下文LLM的高效推理提供了新的思路，尤其适用于需要处理超长文档、代码库或对话历史的实际应用场景。未来，该技术有望在实时交互和资源受限的环境中发挥更大价值。