EAGLE 3.1:修復LLM推理中注意力漂移的推測解碼演算法
EAGLE團隊、vLLM團隊和TorchSpec團隊聯合釋出了EAGLE 3.1,旨在解決生產環境中推測解碼的不穩定性。該演算法透過FC歸一化和歸一化後隱藏狀態反饋兩大架構改進,有效應對注意力漂移問題。在長上下文任務中,EAGLE 3.1的接受長度比EAGLE 3提升高達2倍;在Kimi K2.6模型上的基準測試顯示,併發數為1時每使用者輸出吞吐量提升2.03倍。EAGLE 3.1完全向後相容,已合併至vLLM主線,並將隨v0.22.0版本釋出。
文章情報
要點
- EAGLE 3.1修復了推測解碼中的注意力漂移問題,即起草模型在深度推測時注意力從原始上下文偏移到自身生成內容。
- 兩項架構改進:FC歸一化穩定隱藏狀態,以及將歸一化後的隱藏狀態反饋到下一步,使起草模型更穩定。
- 長上下文任務中接受長度提升2倍,Kimi K2.6模型吞吐量提升2.03倍(併發數1)。
- 完全向後相容EAGLE 3檢查點,已整合至vLLM,計劃在v0.22.0中釋出。
為什麼重要
這條新聞值得關注,因為EAGLE 3.1修復了推測解碼中的注意力漂移問題,即起草模型在深度推測時注意力從原始上下文偏移到自身生成內容。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
推測解碼是一種加速大型語言模型推理的技術,透過一個小型快速的起草模型預先提出多個令牌,再由大型目標模型並行驗證。如果接受,推理速度提升;若拒絕,系統優雅回退。
EAGLE團隊、vLLM團隊和TorchSpec團隊此前推出了EAGLE系列演算法(EAGLE 1、2、3),該系列已成為研究和生產系統中最廣泛採用和部署的推測解碼演算法之一。今天,該家族迎來了針對性可靠性升級——EAGLE 3.1。
問題所在:當使用不同聊天模板、長上下文輸入或分佈外系統提示時,推測解碼效能會下降。EAGLE團隊將這一脆弱性歸因於一種稱為“注意力漂移”的現象:隨著推測深度增加,起草模型逐漸將注意力從原始上下文(固定令牌)轉移到自身生成的令牌上。簡言之,起草模型開始關注自身之前的輸出而非原始上下文,導致接受長度和輸出穩定性下降。
更深層原因有二:首先,融合輸入表示變得不平衡,高層隱藏狀態主導起草模型輸入;其次,由於未歸一化的殘差路徑,隱藏狀態幅度在推測步驟中不斷增長。兩者共同導致起草模型在深度推測時穩定性降低。
EAGLE 3.1的解決方案:兩項關鍵架構改進。第一,FC歸一化——在每個目標隱藏狀態之後、FC層之前應用歸一化,保持隱藏狀態幅度有界。第二,歸一化後隱藏狀態反饋——將歸一化後的隱藏狀態送入下一步解碼,使起草模型的行為更接近遞迴呼叫,而非簡單附加層。
基準測試結果:與EAGLE 3相比,EAGLE 3.1在訓練到推理的外推能力、長上下文魯棒性、對不同聊天模板和系統提示的適應性以及跨多樣化服務環境的接受長度穩定性方面均有提升。在長上下文任務中,EAGLE 3.1的接受長度比EAGLE 3提升高達2倍。
訓練基礎設施:TorchSpec現為EAGLE 3.1和未來推測解碼演算法提供高效訓練支援。基於TorchSpec和vLLM,研究團隊還訓練並開源了用於Kimi K2.6的EAGLE 3.1起草模型(HuggingFace上可用),展示了真實服務模型上的部署範例。
vLLM整合:EAGLE 3.1以配置驅動的方式擴充套件了vLLM中現有的EAGLE 3實現,包括FC歸一化支援、歸一化後隱藏狀態反饋以及去除對目標隱藏狀態的硬編碼假設。完全向後相容現有EAGLE 3檢查點——EAGLE 3.1起草模型可直接透過相同的推測解碼程式碼路徑使用。
部署示例(vLLM v0.22.0):
vllm serve nvidia/Kimi-K2.6-NVFP4 \
--trust-remote-code \
--tensor-parallel-size 4 \
--tool-call-parser kimi_k2 \
--enable-auto-tool-choice \
--reasoning-parser kimi_k2 \
--attention-backend tokenspeed_mla \
--speculative-config '{"model":"lightseekorg/kimi-k2.6-eagle3.1-mla","method":"eagle3","num_speculative_tokens":3}' \
--language-model-only基準測試(Kimi K2.6,SPEED-Bench程式碼資料集,GB200 TP=4):併發數1時每使用者輸出吞吐量提升2.03倍;併發數4時提升1.71倍;併發數16時提升1.66倍。
關鍵要點:EAGLE 3.1修復了注意力漂移問題;兩項架構改進穩定起草模型;長上下文接受長度提升2倍;吞吐量提升顯著;完全向後相容;已合併至vLLM主線,v0.22.0釋出。技術詳情可查閱官方部落格,歡迎關注團隊推特、加入Reddit社群或訂閱新聞通訊。