AI News HubLIVE
站内改写

MinIO、Nvidia GPU推論向けペタバイト級MemKVキャッシュを発表

MinIOは、Nvidia GPU推論向けに設計されたペタバイト級のMemKVキャッシュシステムを発表した。AIStorオブジェクトストレージ上に構築され、Nvidia STXアーキテクチャに準拠。エンドツーエンドのRDMA転送によりマイクロ秒レベルのレイテンシを実現し、128GPU構成でGPU使用率を50%から90%以上に向上、年間200万ドルの計算コスト削減を実現した。

記事インテリジェンス

エンジニア上級

要点

  • MemKVはGPU HBM、CPU DRAM、ローカルSSDの上にペタバイト級の共有コンテキストキャッシュを提供し、BlueField-4 DPUを活用する。
  • このシステムはファーストトークン生成時間を改善し、大規模推論ワークロードでGPU使用率を大幅に向上させる。
  • MinIOはMemKVを推論データパス専用に構築されたG3.5層と位置付け、従来のストレージ手法と区別している。

重要な理由

このニュースが重要なのは、MemKVはGPU HBM、CPU DRAM、ローカルSSDの上にペタバイト級の共有コンテキストキャッシュを提供し、BlueField-4 DPUを活用するためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

MinIOは、Nvidia GPUの推論ワークロード向けに最適化されたペタバイト級のMemKVキャッシュシステムを発表しました。このシステムはMinIOのAIStorオブジェクトストレージ上に構築されており、大規模GPUクラスターにおけるコンテキスト損失と計算効率の問題を解決することを目的としています。

AI推論中、GPUはコンテキスト情報(ベクトル化されたトークンや中間キーバリューペア)を保存するために高帯域幅メモリ(HBM)を必要とします。HBMの容量が不足すると、データはCPU DRAM、NVMe SSD(Nvidia BlueField-4 DPU経由)、そして最終的にはオブジェクトストレージシステムに段階的にキャッシュされます。MemKVはこの階層構造を最適化するために設計され、NvidiaのSTXアーキテクチャに準拠し、マイクロ秒レベルのレイテンシで永続的で共有されたコンテキストストレージを提供します。

MinIOの共同設立者兼共同CEOであるAB Periasamy氏は次のように述べています。「業界は何年もの間、コンテキスト損失の問題を隠蔽してきました。小規模では再計算のコストは許容範囲ですが、ハイパースケーラーやネオクラウドが構築しているGPU密度ではそうはいきません。GPUがすでに生成したコンテキストを再計算することは、無駄な電力消費であり、千台のGPUクラスターでは非効率ではなく、構造的なドラッグとなります。この規模の歩留まり経済性には、推論データパス専用のソリューションが必要です。MemKVはまさにこのために設計されました。」

MinIOによると、MemKVはGPUクラスター全体がマイクロ秒レベルのレイテンシで共有コンテキストプールにアクセスできるようにし、ミリ秒レベルの外部ストレージ待ち時間を排除します。128GPU構成、128Kトークンコンテキスト長のテストでは、GPU使用率が50%から90%以上に向上し、年間約200万ドルの計算コスト削減を実現しました。

MemKVの主な特徴は以下の通りです。BlueField-4 STXのネイティブサポート(ARM64ネイティブバイナリとしてストレージ層に組み込み)、エンドツーエンドのRDMA転送(GPUメモリからNVMeへの直接データ移動)、GPUネイティブのブロックサイズ(2〜16 MB、スループット最適化)、およびNvidia Spectrum-X EthernetとPCIe Gen6向けのワイヤスピードパフォーマンスです。

MinIOは、他のストレージベンダーがコンテキストメモリサポートを発表する際、クラスター全体で共有できないローカルNVMe(G3)を拡張するか、汎用共有ストレージ(G4)を改造していると指摘します。これらは本来推論用に設計されたものではなく、MemKVはG3.5層としてゼロから構築されました。MinIOは、レガシーストレージベンダーがG3.5サポートを主張しても、データは同じプロトコルノード、メタデータサービス、ファイルシステム変換層を通過すると強調します。これらの層はトレーニングデータやモデル重みには適切ですが、KVキャッシュのような一時的で再計算可能なデータや、2〜16 MBの推論最適化ブロックには不向きです。

現在、GPU駆動のハードウェアRAIDベンダーGRAIDやWEKAもSTX対応のKVキャッシュソリューションを提供しています。さらに、Cloudian、Dell、DDN、Everpure、Hammerspace、Hitachi Vantara、HPE、Lightbits/ScaleFlux、NetApp、Nutanix、Peak:AIO、Pliops、VAST Dataなど多くのストレージベンダーがNvidiaのSTXアーキテクチャへのサポートを表明しています。