在 Amazon SageMaker AI 上使用 P-EAGLE 实现推测解码并行化
本篇文章指导您如何在 Amazon SageMaker AI 中直接使用 P-EAGLE,展示如何从 SageMaker JumpStart 目录中选择兼容模型、配置并行草稿规格,并部署高度优化的实时 SageMaker AI 端点以加速生成式 AI 应用。
随着大语言模型(LLM)的规模和复杂性不断增长,在保持低延迟的同时最大化推理吞吐量成为企业生产部署的关键挑战。推测解码(Speculative decoding)是一种有效策略,它利用轻量级草稿模型猜测未来令牌,再由目标 LLM 在一次前向传播中验证。尽管 EAGLE 等先进框架实现了显著加速,但其草稿令牌的生成仍是自回归的,导致延迟随推测深度线性增加。
AWS 发明的 P-EAGLE(Parallel-EAGLE)彻底改变了这一局面。该方法通过引入可学习的占位符嵌入(mask token embedding)和共享隐藏状态(shared hidden state),使所有草稿令牌能在单次前向传播中并行预测,完全消除了串行阶段。以实际场景为例:若目标模型生成“Paris”,EAGLE 需要四次顺序草稿传递才能提出后续四个令牌,而 P-EAGLE 可一次性完成。在先进硬件上,P-EAGLE 相比标准 EAGLE 框架实现了高达 1.69 倍的吞吐量提升。
Amazon SageMaker JumpStart 现已原生支持 P-EAGLE 用于一系列热门基础模型。用户无需手动训练草稿模型或配置 vLLM,即可一键部署经过 P-EAGLE 优化的推理端点。本文以 Qwen3-Coder-30B-A3B-Instruct 为例,演示了从选择模型、配置部署到测试端点的完整流程。基准测试显示,在 HumanEval 和 SPEED-Bench Code 上,P-EAGLE(K=11)在并发度为 1 时分别达到 1,167 和 873 输出令牌/秒,是标准推理的 3.97 倍和 2.97 倍。
P-EAGLE 的工作原理是通过学习两个可训练参数打破自回归链:掩码令牌嵌入(emb_mask)替代未知的前一令牌嵌入,共享隐藏状态(h_shared)替代前一位置的草稿隐藏状态。理论分析表明,注意力机制本身提供了足够的位置信息,因此无需逐位置隐藏状态。这一设计使得推测深度与延迟解耦,允许更深度的推测而不增加额外开销。
目前,SageMaker JumpStart 提供 GPT-OSS-120B、GPT-OSS-20B、Qwen3-Coder-30B-A3B-Instruct 和 Gemma-4-31B-IT 四个预置 P-EAGLE 头的模型。部署时,环境变量 SM_VLLM_SPECULATIVE_CONFIG 已预配置为 {"model": "/opt/ml/additional-model-data-sources/eagle", "method": "eagle3", "num_speculative_tokens": 3, "parallel_drafting": true},用户只需调整 num_speculative_tokens 参数即可控制草稿令牌数量。端点就绪后,可通过 Playground 直接测试,或集成到生产环境中。
P-EAGLE 通过并行化打破了推测解码的延迟天花板,结合 SageMaker AI 的托管优势,为生成式 AI 推理提供了即用型加速方案。用户无需管理底层 CUDA 内核或分布式服务设置,即可享受高达 1.69 倍的性能提升。建议在不再使用时删除端点以避免持续计费。