AI News HubLIVE
站內改寫1 分鐘閱讀

Dustin:面向高效長上下文生成的草稿增強稀疏驗證方法

Dustin是一種專為長上下文場景設計的稀疏驗證框架,通過結合草稿模型的預測信號與目標模型的歷史注意力,僅對關鍵token進行驗證,顯著加速推測解碼中的KV緩存加載瓶頸。在Qwen2.5-72B上,32k序列長度下自注意力加速27.85倍,端到端解碼加速9.17倍,精度損失可忽略。

來源arXiv Computational Linguistics作者: WenHung Lee, Jian-Jia Chen, Xiaolin Lin, Pei-Shuo Wang, Chi-Chih Chang, Chun-Che Yang, Ning-Chi Huang, Grace Li Zhang, Kai-Chiang Wu

長上下文大語言模型(LLM)的推理效率一直是一個關鍵挑戰。推測解碼(Speculative Decoding)通過使用輕量級草稿模型生成候選序列並由目標模型並行驗證,能夠有效提升吞吐量。然而,在處理長序列時,驗證過程本身成為新的瓶頸:頻繁加載鍵值(KV)緩存佔據了絕大部分延遲。現有的KV緩存壓縮方法難以勝任這一場景——靜態驅逐會因注意力偏移導致精度損失,而動態選擇則會在驗證路徑中引入過高的計算開銷。

針對這一問題,來自研究團隊的WenHung Lee等人在ICML 2026上提出了Dustin,一種面向長上下文推測解碼的稀疏驗證框架。Dustin的核心思想是:在驗證階段,僅需關注對生成結果至關重要的少量token。為此,它巧妙地將草稿模型中的前瞻信號(lookahead signals)與目標模型的歷史注意力分佈相結合,從而在多步驗證窗口內高保真地識別出關鍵token。為了進一步降低重計算延遲,Dustin還採用了一種稀疏估計方案,將重要性評分限制在極少數注意力頭上。這種設計使得框架能夠在保持高精度的同時,大幅減少計算量。實驗基於PG-19和LongBench數據集,使用Qwen2.5-72B模型進行測試。結果顯示,在32k序列長度下,Dustin實現了自注意力部分27.85倍的加速,端到端解碼速度提升達到9.17倍,且精度下降微乎其微。該研究已被ICML 2026接收,論文共9頁正文,幷包含參考文獻和附錄。Dustin的提出為長上下文LLM的高效推理提供了新的思路,尤其適用於需要處理超長文檔、代碼庫或對話歷史的實際應用場景。未來,該技術有望在實時交互和資源受限的環境中發揮更大價值。