SuperInfer:LLM推論のためのSLO認識型ロータリースケジューリングとメモリ管理
SuperInferは、NVIDIA GH200などのスーパーチップ向けの高性能LLM推論システムです。SLO認識型のプロアクティブなロータリースケジューラRotaSchedと、全二重メモリ転送エンジンDuplexKVを導入し、TTFT SLO達成率を最大74.7%向上させつつ、TBTとスループットを維持します。
記事インテリジェンス
要点
- 初のプロアクティブなSLO認識型ロータリースケジューラRotaSchedを提案。リクエストをHBMとDRAM間で遅延緊急度に応じてローテーション。
- DuplexKVエンジンはNVLink-C2Cを介した全二重KVキャッシュ転送を実現し、PCIeの帯域幅制限を克服。
- GH200での評価では、vLLMなどのシステムと比較してTTFT SLO達成率が最大74.7%向上。
重要な理由
このニュースが重要なのは、初のプロアクティブなSLO認識型ロータリースケジューラRotaSchedを提案。リクエストをHBMとDRAM間で遅延緊急度に応じてローテーションためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
大規模言語モデル(LLM)推論サービスは、厳格なレイテンシサービスレベル目標(SLO)と限られたGPUメモリ容量との間に根本的なトレードオフを抱えています。高いリクエストレートでKVキャッシュの予算が枯渇すると、既存のLLM推論システムは深刻なヘッド・オブ・ライン(HOL)ブロッキングに悩まされます。PCIeベースのオフロードを探求した先行研究もありますが、これらの手法は高いリクエストレート下で応答性を維持できず、厳しいTime-To-First-Token(TTFT)とTime-Between-Tokens(TBT)のSLOを満たせないことが多いです。
これらの問題に対処するため、NVLink-C2Cを介してGPUとCPUを密結合したNVIDIA GH200のような新興スーパーチップ向けに設計された高性能LLM推論システムSuperInferを提案します。SuperInferは2つの主要な革新を導入します。RotaSchedは、リクエストを実行中(HBM)と新しい過渡的ローテーション状態(DRAM)の間でレイテンシ緊急度に応じてローテーションする、初のプロアクティブなSLO認識型ロータリースケジューラです。DuplexKVは、NVLink-C2Cを活用した全二重転送を可能にする最適化されたローテーションエンジンで、先行的なブロックローテーションとブロックファーストレイアウトにバッチDMA転送を組み合わせて相互接続帯域幅を最大限に活用します。
GH200スーパーチップ上でのLLaMA-3-8B、Qwen2.5-32B、Mixtral-8x7Bなどのモデルを使用した評価では、SuperInferはTTFT SLO達成率を最大74.7%向上させ、TBTとスループットは最先端システムと同等に維持しました。これは、SLO認識型のスケジューリングとメモリの共同設計が、レスポンシブなLLMサービングにおけるスーパーチップの潜在能力を最大限に引き出すことを示しています。