AI News HubLIVE
站内改写

OpenAI、大規模AIスーパーコンピュータ向け新ネットワークプロトコル「MRC(Multipath Reliable Connection)」を発表

OpenAIはAMD、Broadcom、Intel、Microsoft、NVIDIAと協力し、大規模AI訓練クラスター向けのオープンネットワーキングプロトコルMRCを発表しました。MRCは適応型パケットスプレーにより輻輳を排除し、静的ソースルーティングによるマイクロ秒レベルの障害復旧を実現し、2層スイッチトポロジーで10万以上のGPUをサポートします。すでにOpenAIの最大規模のスーパーコンピュータで本番運用されており、ChatGPTやCodexのフロンティアモデルの訓練に使用されています。

記事インテリジェンス

エンジニア上級

要点

  • OpenAIがAMD、Broadcom、Intel、Microsoft、NVIDIAと共同開発したMRCをOpen Compute Project(OCP)を通じて公開。
  • MRCはパケットを数百の経路に同時に分散するインテリジェントパケットスプレーにより、コアの輻輳を低減。
  • マイクロ秒単位の障害復旧により、リンクやスイッチ障害時も訓練ジョブを継続。
  • 800Gb/sインターフェースを8つの100Gb/sプレーンに分割することで、2層スイッチで13万1000以上のGPUを接続可能。

重要な理由

このニュースが重要なのは、OpenAIがAMD、Broadcom、Intel、Microsoft、NVIDIAと共同開発したMRCをOpen Compute Project(OCP)を通じて公開ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

OpenAIは先日、大規模AIスーパーコンピュータの訓練クラスター向けの新たなネットワークプロトコル「MRC(Multipath Reliable Connection)」を発表した。このプロトコルは、AMD、Broadcom、Intel、Microsoft、NVIDIAとの2年間にわたる協力の成果であり、Open Compute Project(OCP)を通じて公開され、業界全体での利用と発展が期待されている。

最先端のAIモデルの訓練は、単なる計算問題ではなく、ネットワーク問題でもある。大規模モデルの訓練では、1ステップに数百万回のデータ転送が発生し、1つの転送遅延が全体のジョブに波及し、GPUをアイドル状態にする可能性がある。OpenAIによれば、現在週に9億人以上がChatGPTを利用しており、その規模でモデルを維持・改善するには、GPUのアイドル時間は実際のコストと能力損失を意味する。ネットワーク輻輳、リンク障害、デバイス障害は転送の遅延とジッターの主な原因であり、クラスターサイズが大きくなるほど頻繁かつ解決困難になる。

MRCはゼロからの発明ではなく、RDMA over Converged Ethernet(RoCE)を拡張したものだ。RoCEは、CPUを介さずにイーサネット経由で別のマシンのメモリを直接読み書きするプロトコルで、最大スループットを実現する。MRCはさらにSRv6ベースのソースルーティングを採用し、送信側がパケットヘッダーに正確な経路を埋め込むことで、スイッチのルーティング計算を不要にし、消費電力を削減する。MRCの3つの中核メカニズムは以下の通り。

  1. 適応型パケットスプレー:従来のRoCEv2では各転送が単一経路に固定されていたが、MRCはパケットを数百の経路に同時に分散することでコアの輻輳を軽減する。インテリジェントな負荷分散により、1つの経路が使用不能になっても他の経路を利用でき、高い帯域利用と低いテールレイテンシを実現する。
  1. マイクロ秒レベルの障害復旧:MRCはSRv6静的ソースルーティングにより、リンクやスイッチ障害を感知し、マイクロ秒単位で経路を切り替える。この設計の鍵は、すべてのルーティングインテリジェンスをNICレベルに置き、スイッチは静的に設定された経路を盲目的に追従するだけという点だ。動的ルーティングを無効にすることで、2つの適応メカニズムが干渉するのを防ぐ。従来のネットワークでは障害復旧に数秒から数十秒かかったが、MRCでは訓練ジョブが継続する。例えば、NICの1ポートが失われた場合、最大レートは1/8に低下するが、MRCは即座に検出し、他のノードにそのポートを避けるよう通知する。ほとんどの障害は1分以内に回復し、MRCはそのプレーンを再利用する。
  1. マルチプレーンネットワーク:MRCは各800Gb/sインターフェースを複数の小さなリンクに分割する(例:8つの100Gb/sプレーン)。これにより、64ポートの800Gb/sスイッチは512ポートの100Gb/sスイッチとして機能し、約13万1000のGPUを2層のスイッチのみで完全に接続できる。従来の800Gb/sネットワークでは3〜4層必要だった。研究チームの定量化によれば、全二重帯域幅において、2層マルチプレーン設計は3層ネットワークと比較して光学部品が2/3、スイッチ数が3/5で済む。スイッチ層が少ないほどレイテンシも低く(最長経路は3スイッチのみ)、障害時の影響範囲も小さい。

ハードウェア面では、MRCはNVIDIA ConnectX-8、AMD Pollara、AMD Vulcano、Broadcom Thor Ultraなどの400/800Gb/s RDMA NICで実装され、NVIDIA Spectrum-4/5やBroadcom Tomahawk 5(Arista EOS経由)のSRv6スイッチでサポートされている。AMDはNSCC輻輳制御アルゴリズムを貢献し、これはUEC輻輳制御仕様の一部となっている。

MRCはすでに本番環境で使用されている。OpenAIの最大規模のNVIDIA GB200スーパーコンピュータ(テキサス州アビリーンのOracle Cloud InfrastructureサイトやMicrosoftのFairwaterスーパーコンピュータ)に展開され、ChatGPTやCodexのフロンティア大規模言語モデルの訓練に利用された。訓練中に4台のtier-1スイッチを再起動する必要があったが、MRCのおかげで訓練チームとの調整なしで完了できた。

まとめると、MRCはパケットスプレー、マイクロ秒障害復旧、マルチプレーンアーキテクチャにより、大規模AI訓練クラスターのネットワーク性能と信頼性を大幅に向上させ、より大規模なスーパーコンピュータ構築の可能性を開くものである。