AI News HubLIVE
站内改写2 分鐘閱讀

在 Amazon SageMaker AI 上使用 P-EAGLE 實現推測解碼並行化

本篇文章指導您如何在 Amazon SageMaker AI 中直接使用 P-EAGLE,展示如何從 SageMaker JumpStart 目錄中選擇相容模型、配置並行草稿規格,並部署高度最佳化的即時 SageMaker AI 端點以加速生成式 AI 應用。

來源AWS Machine Learning Blog作者: Andy Peng

隨著大語言模型(LLM)的規模和複雜性不斷增長,在保持低延遲的同時最大化推理吞吐量成為企業生產部署的關鍵挑戰。推測解碼(Speculative decoding)是一種有效策略,它利用輕量級草稿模型猜測未來令牌,再由目標 LLM 在一次前向傳播中驗證。儘管 EAGLE 等先進框架實現了顯著加速,但其草稿令牌的生成仍是自迴歸的,導致延遲隨推測深度線性增加。

AWS 發明的 P-EAGLE(Parallel-EAGLE)徹底改變了這一局面。該方法透過引入可學習的佔位符嵌入(mask token embedding)和共享隱藏狀態(shared hidden state),使所有草稿令牌能在單次前向傳播中並行預測,完全消除了序列階段。以實際場景為例:若目標模型生成“Paris”,EAGLE 需要四次順序草稿傳遞才能提出後續四個令牌,而 P-EAGLE 可一次性完成。在先進硬體上,P-EAGLE 相比標準 EAGLE 框架實現了高達 1.69 倍的吞吐量提升。

Amazon SageMaker JumpStart 現已原生支援 P-EAGLE 用於一系列熱門基礎模型。使用者無需手動訓練草稿模型或配置 vLLM,即可一鍵部署經過 P-EAGLE 最佳化的推理端點。本文以 Qwen3-Coder-30B-A3B-Instruct 為例,演示了從選擇模型、配置部署到測試端點的完整流程。基準測試顯示,在 HumanEval 和 SPEED-Bench Code 上,P-EAGLE(K=11)在併發度為 1 時分別達到 1,167 和 873 輸出令牌/秒,是標準推理的 3.97 倍和 2.97 倍。

P-EAGLE 的工作原理是透過學習兩個可訓練引數打破自迴歸鏈:掩碼令牌嵌入(emb_mask)替代未知的前一令牌嵌入,共享隱藏狀態(h_shared)替代前一位置的草稿隱藏狀態。理論分析表明,注意力機制本身提供了足夠的位置資訊,因此無需逐位置隱藏狀態。這一設計使得推測深度與延遲解耦,允許更深度的推測而不增加額外開銷。

目前,SageMaker JumpStart 提供 GPT-OSS-120B、GPT-OSS-20B、Qwen3-Coder-30B-A3B-Instruct 和 Gemma-4-31B-IT 四個預置 P-EAGLE 頭的模型。部署時,環境變數 SM_VLLM_SPECULATIVE_CONFIG 已預配置為 {"model": "/opt/ml/additional-model-data-sources/eagle", "method": "eagle3", "num_speculative_tokens": 3, "parallel_drafting": true},使用者只需調整 num_speculative_tokens 引數即可控制草稿令牌數量。端點就緒後,可透過 Playground 直接測試,或整合到生產環境中。

P-EAGLE 透過並行化打破了推測解碼的延遲天花板,結合 SageMaker AI 的託管優勢,為生成式 AI 推理提供了即用型加速方案。使用者無需管理底層 CUDA 核心或分散式服務設定,即可享受高達 1.69 倍的效能提升。建議在不再使用時刪除端點以避免持續計費。