AI News HubLIVE
サイト内リライト4 分で読了

NVIDIAの推論ソフトウェアスタックがどのように最低トークンコストを実現するか

NVIDIAの推論ソフトウェアスタックは、GPU、CPU、ネットワーキング、システムと共同設計され、オープンソースエコシステムによって強化され、ハードウェアのパフォーマンスを継続的に向上させています。Blackwellプラットフォームでは、このソフトウェアスタックがわずか1か月でDeepSeek V4モデルのトークンコストを最大5倍削減しました。この記事では、ソフトウェアの最適化が運用、アプリケーションアクセラレーション、インフラアクセスの3つの層を通じてどのようにシステムレベルのパフォーマンス向上をもたらし、トークンあたりのコストを削減するかを詳しく説明しています。

ソースNVIDIA Blog著者: Amr Elmeleegy

組織がAIパイロットから本番AIファクトリーへ移行するにつれ、インフラストラクチャの決定はピークチップ仕様からトークンあたりのコスト(1ドル、1ワットあたりに、要求レイテンシ内でどれだけ有用なトークンを提供できるか)へとシフトしています。NVIDIAの推論ソフトウェアスタックは、GPU、CPU、ネットワーキング、システムと共同設計され、広範なオープンソースエコシステムによって強化され、ハードウェアのパフォーマンスを継続的に向上させています。NVIDIA Blackwellプラットフォームでは、このソフトウェアスタックがわずか1か月でDeepSeek V4モデルのトークンコストを最大5倍削減しました。

主要企業や推論プロバイダーは、すでにBlackwell上でNVIDIAの推論ソフトウェアスタックの価値を実感しています。Basetenは、NVIDIA TensorRT-LLMオープンソースライブラリを使用してBlackwell GPU上でDeepSeek V4 Proを提供し、推論、コーディング、長文コンテキストワークロードに対して専有ランタイム最適化を適用し、最大50%多いトークン/秒を実現しました。Cognitionは、NVIDIA Dynamo推論フレームワークを使用して推論GPUを管理し、チームが強化学習ワークロードをゼロから構築することなく拡張するための既成のパスを提供しています。Deep Infraは、NVIDIA推論ソフトウェアスタックを使用して、初日からBlackwell上でDeepSeek V4を含む最先端のオープンモデルを高性能に提供しています。Together AIは、NVIDIA TensorRT-LLMをBlackwell上で使用してCursorのモデル最適化からプロダクションエンドポイントへのパスを加速し、リアルタイムコーディング体験を実現しました。

なぜソフトウェアが推論経済にとって重要なのか。従来のWeb、検索、SaaSワークロードは比較的予測可能でしたが、エージェンティックAIは異なります。エージェンティックAIは、データセンター全体にわたるLLM、ツール、メモリ、セキュリティ、ネットワーキング、アクセラレーテッドコンピューティングにまたがる分散型ステートフルワークフローを実行します。エージェントは推論、計画、ツール呼び出し、専門サブエージェントの起動、マルチターンワークフローにわたる大規模コンテキストの管理を行うことができます。これにより、単一のリクエストが、数百のサブエージェント、数千のタスク、複数の大規模言語モデルに及ぶ分散コンピューティング問題に変わります。ソフトウェアスタックは、この複雑さが無駄な容量になるか、トークンあたりのコスト低下につながるかを決定します。

トークンあたりのコスト低下は、個々の最適化をシステムレベルのパフォーマンスに変えることから生まれます。NVIDIAの推論ソフトウェアスタックは、3つの層を接続することでこれを実現します。プロダクション運用層は、分散サービング、オーケストレーション、オートスケーリング、メモリ管理を調整し、推論が適切な計算およびストレージリソースで実行されるようにします。アプリケーションアクセラレーション層は、モデルを高性能で実行しながら、開発者が計算と通信のオーバーラップやカーネル融合などのランタイム最適化を使用してチューニングおよびカスタマイズする余地を提供します。インフラストラクチャアクセス層は、NVIDIA GPU、ネットワーキング、メモリ、システムの機能を公開し、開発者がデバイス命令セットやデータ転送プロトコルを直接管理する必要をなくします。NVIDIAのソフトウェアスタックは、モデルサービング、ランタイムスケジューリング、カーネル、通信ライブラリ、ハードウェア対応最適化を網羅し、改善が層間で積み重なるにつれて、迅速なパフォーマンス向上と低い推論コストを可能にします。

これらの層が1つのシステムとして機能すると、個々の最適化が増幅されます。分離型サービング、NVIDIA NVLink相互接続技術による大規模エキスパート並列処理、NVFP4精度、マルチトークン予測は、それぞれ単独でも大きな利得をもたらします。これらを組み合わせると、スループットが最大20倍向上します。この利得を本番で捉えることは複雑であり、推論スタック全体(プロダクション運用、モデルランタイムからカーネル、通信ライブラリ、ハードウェアアクセスまで)の調整が必要です。NVIDIAの推論ソフトウェアスタックは、これらの層が連携し、各最適化が他の最適化の上に構築されるように設計されています。

このフルスタック基盤は、オープンソースエコシステムによってさらに強化されています。今日最も広く使われているオープンソースAIフレームワークや推論プロジェクトの多くは、ネイティブにNVIDIA CUDA上に構築されており、新しい研究やソフトウェアの最適化が初日からNVIDIA GPU上でリーディングパフォーマンスで実行されます。PyTorchはその代表例です。2016年にCUDAネイティブサポートでローンチされたPyTorchは、NVIDIAのアーキテクチャと共進化し、開発者がTensor Cores、Transformer Engine、NVFP4などの革新に使い慣れたフレームワークから直接アクセスできるようにしています。DFlash投機的デコード(既存ハードウェアで最大15倍のスループット向上)やFastVideo(5秒未満で1080pビデオ生成)などのブレークスルーがPyTorchに登場すると、それらは即座にNVIDIA上で実行可能となり、AIファクトリーが研究の進展をトークンコストの低減につなげるのに役立ちます。

同じオープンソースの勢いにより、DeepSeek V4のような新しい最先端オープンモデルがリリースされると、vLLMやSGLangなどのリーディング推論フレームワークがNVIDIA Blackwellアーキテクチャ向けの即日デプロイレシピを提供し、モデルを数百万のBlackwell GPU上で利用可能にします。これが、DeepSeek V4のBlackwell上でのパフォーマンスが約1か月でvLLMとSGLangフレームワーク全体で最大5倍向上し、トークンコストが以前の約5分の1に削減された理由でもあります。これがオープンソースのフライホイール効果です。より多くの開発者がCUDAネイティブ推論パスを最適化し、より多くの本番デプロイメントがエコシステムにフィードバックされ、各ソフトウェア改善が提供されるトークン出力を増やし、時間とともにトークンあたりのコストを削減します。