2026-05-19 10:23 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

SuperInfer：LLM推論のためのSLO認識型ロータリースケジューリングとメモリ管理

SuperInferは、NVIDIA GH200などのスーパーチップ向けの高性能LLM推論システムです。SLO認識型のプロアクティブなロータリースケジューラRotaSchedと、全二重メモリ転送エンジンDuplexKVを導入し、TTFT SLO達成率を最大74.7%向上させつつ、TBTとスループットを維持します。

ソースHacker News AI著者: matt_d

記事インテリジェンス

エンジニア上級

要点

初のプロアクティブなSLO認識型ロータリースケジューラRotaSchedを提案。リクエストをHBMとDRAM間で遅延緊急度に応じてローテーション。
DuplexKVエンジンはNVLink-C2Cを介した全二重KVキャッシュ転送を実現し、PCIeの帯域幅制限を克服。
GH200での評価では、vLLMなどのシステムと比較してTTFT SLO達成率が最大74.7%向上。

重要な理由

このニュースが重要なのは、初のプロアクティブなSLO認識型ロータリースケジューラRotaSchedを提案。リクエストをHBMとDRAM間で遅延緊急度に応じてローテーションためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

大規模言語モデル（LLM）推論サービスは、厳格なレイテンシサービスレベル目標（SLO）と限られたGPUメモリ容量との間に根本的なトレードオフを抱えています。高いリクエストレートでKVキャッシュの予算が枯渇すると、既存のLLM推論システムは深刻なヘッド・オブ・ライン（HOL）ブロッキングに悩まされます。PCIeベースのオフロードを探求した先行研究もありますが、これらの手法は高いリクエストレート下で応答性を維持できず、厳しいTime-To-First-Token（TTFT）とTime-Between-Tokens（TBT）のSLOを満たせないことが多いです。

これらの問題に対処するため、NVLink-C2Cを介してGPUとCPUを密結合したNVIDIA GH200のような新興スーパーチップ向けに設計された高性能LLM推論システムSuperInferを提案します。SuperInferは2つの主要な革新を導入します。RotaSchedは、リクエストを実行中（HBM）と新しい過渡的ローテーション状態（DRAM）の間でレイテンシ緊急度に応じてローテーションする、初のプロアクティブなSLO認識型ロータリースケジューラです。DuplexKVは、NVLink-C2Cを活用した全二重転送を可能にする最適化されたローテーションエンジンで、先行的なブロックローテーションとブロックファーストレイアウトにバッチDMA転送を組み合わせて相互接続帯域幅を最大限に活用します。

GH200スーパーチップ上でのLLaMA-3-8B、Qwen2.5-32B、Mixtral-8x7Bなどのモデルを使用した評価では、SuperInferはTTFT SLO達成率を最大74.7%向上させ、TBTとスループットは最先端システムと同等に維持しました。これは、SLO認識型のスケジューリングとメモリの共同設計が、レスポンシブなLLMサービングにおけるスーパーチップの潜在能力を最大限に引き出すことを示しています。