2026-06-16站内改写2 分で読了更新: 2026-06-16

Amazon SageMaker AI で P-EAGLE を使用した投機的復号の並列化

この記事では、Amazon SageMaker AI 内で P-EAGLE を直接使用する方法を説明します。SageMaker JumpStart カタログから互換性のあるモデルを選択し、並列ドラフト仕様を構成し、高度に最適化されたリアルタイム SageMaker AI エンドポイントをデプロイして生成 AI アプリケーションを高速化する方法を示します。

ソースAWS Machine Learning Blog著者: Andy Peng

大規模言語モデル（LLM）のサイズと複雑性が増す中、推論スループットを最大化しつつレイテンシを最小化することは、エンタープライズ本番環境での重要な課題です。投機的復号（Speculative decoding）は、軽量なドラフトモデルを使用して将来のトークンを推測し、ターゲットLLMが1回のフォワードパスで検証する戦略です。EAGLEのような最先端フレームワークは大幅な高速化を実現しましたが、ドラフトトークンが自己回帰的に生成されるため、推測深度に比例してレイテンシが増加するというアーキテクチャ上の限界がありました。

AWSが発明したP-EAGLE（Parallel-EAGLE）は、このボトルネックを打破します。P-EAGLEは、学習可能なプレースホルダー表現を用いて、すべてのドラフトトークンを1回のフォワードパスで並列に予測します。これにより、ドラフトトークン数と逐次フォワードパス数の関係を切り離し、レイテンシオーバーヘッドを増やすことなくより深い推測を可能にします。実際のベンチマークでは、P-EAGLEは標準のEAGLEフレームワークと比較して最大1.69倍のスループット向上を達成しています。

本日より、Amazon SageMaker JumpStart は人気の基盤モデル向けに P-EAGLE をネイティブサポートしています。SageMaker JumpStart は、ワンクリックまたは数行のコードで展開可能な最新のオープンウェイトモデルのキュレーションされたハブを提供します。P-EAGLEのモデル最適化とAmazon SageMaker AIのマネージド環境を組み合わせることで、開発者は複雑なCUDAカーネルや分散サービング設定を管理することなく、EAGLE-3よりも最大1.69倍高速な推論エンドポイントをデプロイできます。

本記事では、Qwen3-Coder-30B-A3B-Instruct を例に、SageMaker JumpStart からモデルを選択し、並列ドラフト仕様を設定し、エンドポイントをデプロイする手順を説明します。ベンチマークでは、HumanEval および SPEED-Bench Code において、P-EAGLE（K=11）が同時実行数1でそれぞれ1,167および873出力トークン/秒を記録し、ベースラインの3.97倍および2.97倍の性能を示しました。

P-EAGLEの中核は、自己回帰チェーンを断ち切る2つの学習可能パラメータにあります。マスクトークン埋め込み（emb_mask）は未知の前トークン埋め込みを代替し、共有隠れ状態（h_shared）は前位置のドラフター隠れ状態を代替します。理論的分析により、アテンションだけで十分な位置情報が得られるため、位置固有の隠れ状態は不要であることが示されています。これにより、すべてのKドラフト位置を並列に構築できます。

現在、SageMaker JumpStart では GPT-OSS-120B、GPT-OSS-20B、Qwen3-Coder-30B-A3B-Instruct、Gemma-4-31B-IT の4モデルが事前学習済みP-EAGLEヘッドとともに利用可能です。環境変数 SM_VLLM_SPECULATIVE_CONFIG により、ドラフター設定が自動構成されます（例: {"model": "/opt/ml/additional-model-data-sources/eagle", "method": "eagle3", "num_speculative_tokens": 3, "parallel_drafting": true}）。ユーザーは num_speculative_tokens を調整するだけで、並列ドラフトの深さを制御できます。

P-EAGLEは投機的復号のレイテンシ上限を並列化によって打破し、SageMaker AIのマネージド環境と組み合わせることで、生成AI推論のための即時利用可能な高速化ソリューションを提供します。不要になったエンドポイントは、コスト発生を避けるために必ず削除してください。