2026-06-25 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-25 15:53 UTC+8

Dustin：面向高效長上下文生成的草稿增強稀疏驗證方法

Dustin是一種專為長上下文場景設計的稀疏驗證框架，通過結合草稿模型的預測信號與目標模型的歷史注意力，僅對關鍵token進行驗證，顯著加速推測解碼中的KV緩存加載瓶頸。在Qwen2.5-72B上，32k序列長度下自注意力加速27.85倍，端到端解碼加速9.17倍，精度損失可忽略。

來源arXiv Computational Linguistics作者: WenHung Lee, Jian-Jia Chen, Xiaolin Lin, Pei-Shuo Wang, Chi-Chih Chang, Chun-Che Yang, Ning-Chi Huang, Grace Li Zhang, Kai-Chiang Wu

長上下文大語言模型（LLM）的推理效率一直是一個關鍵挑戰。推測解碼（Speculative Decoding）通過使用輕量級草稿模型生成候選序列並由目標模型並行驗證，能夠有效提升吞吐量。然而，在處理長序列時，驗證過程本身成為新的瓶頸：頻繁加載鍵值（KV）緩存佔據了絕大部分延遲。現有的KV緩存壓縮方法難以勝任這一場景——靜態驅逐會因注意力偏移導致精度損失，而動態選擇則會在驗證路徑中引入過高的計算開銷。

針對這一問題，來自研究團隊的WenHung Lee等人在ICML 2026上提出了Dustin，一種面向長上下文推測解碼的稀疏驗證框架。Dustin的核心思想是：在驗證階段，僅需關注對生成結果至關重要的少量token。為此，它巧妙地將草稿模型中的前瞻信號（lookahead signals）與目標模型的歷史注意力分佈相結合，從而在多步驗證窗口內高保真地識別出關鍵token。為了進一步降低重計算延遲，Dustin還採用了一種稀疏估計方案，將重要性評分限制在極少數注意力頭上。這種設計使得框架能夠在保持高精度的同時，大幅減少計算量。實驗基於PG-19和LongBench數據集，使用Qwen2.5-72B模型進行測試。結果顯示，在32k序列長度下，Dustin實現了自注意力部分27.85倍的加速，端到端解碼速度提升達到9.17倍，且精度下降微乎其微。該研究已被ICML 2026接收，論文共9頁正文，幷包含參考文獻和附錄。Dustin的提出為長上下文LLM的高效推理提供了新的思路，尤其適用於需要處理超長文檔、代碼庫或對話歷史的實際應用場景。未來，該技術有望在實時交互和資源受限的環境中發揮更大價值。