AI News HubLIVE
站内改写

OpenAI推出MRC(多路徑可靠連線):用於大規模AI超級計算機訓練叢集的全新開放網路協議

OpenAI與AMD、Broadcom、Intel、Microsoft和NVIDIA合作,釋出了MRC協議。該協議透過自適應資料包噴灑消除擁塞,利用靜態源路由實現微秒級故障恢復,並支援僅兩層交換機拓撲連線超過10萬個GPU。MRC已在OpenAI最大的超級計算機中部署,用於訓練ChatGPT和Codex的前沿模型。

文章情報

工程師進階

要點

  • OpenAI聯合AMD、Broadcom、Intel、Microsoft和NVIDIA共同開發MRC,並透過開放計算專案(OCP)釋出。
  • MRC採用智慧資料包噴灑技術,同時利用數百條路徑傳輸,減少核心擁塞和尾部延遲。
  • 微秒級故障恢復機制在鏈路或交換機故障時保持訓練作業執行。
  • 兩層多平面網路架構支援13.1萬個GPU,相比傳統方案減少交換機數量和光學器件,降低成本與延遲。

為什麼重要

這條新聞值得關注,因為OpenAI聯合AMD、Broadcom、Intel、Microsoft和NVIDIA共同開發MRC,並透過開放計算專案(OCP)釋出。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

OpenAI 近日宣佈推出 MRC(Multipath Reliable Connection,多路徑可靠連線)協議,這是一種專為大規模 AI 超級計算機訓練叢集設計的新型網路協議。該協議由 OpenAI 與 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 在過去兩年中聯合開發,並透過開放計算專案(OCP)釋出,旨在解決 AI 訓練中日益突出的網路瓶頸問題。

訓練前沿 AI 模型不僅需要強大的計算能力,更對網路效能提出了極高要求。在大型模型訓練過程中,每一步都可能涉及數百萬次資料傳輸,任何一次傳輸的延遲都可能導致 GPU 空閒,從而造成巨大的計算資源和成本浪費。OpenAI 指出,網路擁塞、鏈路和裝置故障是造成傳輸延遲和抖動的常見原因,並且隨著叢集規模的擴大,這些問題變得更加頻繁和難以解決。目前每週有超過 9 億使用者使用 ChatGPT,維持和改進模型效能意味著每一秒的 GPU 空閒都代表著實際損失。

MRC 並非從零開始構建,而是基於 RDMA over Converged Ethernet(RoCE)標準進行了擴充套件。RoCE 允許裝置直接透過乙太網遠端讀寫另一臺裝置的記憶體,繞過 CPU 以最大化吞吐量。MRC 進一步引入了 SRv6 段路由技術,傳送端將精確路徑編碼在資料包頭部,從而減輕交換機計算負擔並節省功耗。MRC 的核心機制包括三個關鍵方面:

  1. 自適應資料包噴灑(Adaptive Packet Spraying):傳統 RoCEv2 將每個傳輸限制在單一路徑上,容易導致擁塞。MRC 則將資料包分散到數百條路徑上同時傳輸,透過智慧負載均衡實現更高頻寬利用率和更低尾部延遲。即便某條路徑不可用,資料包仍可透過其他路徑到達,有效消除核心擁塞。
  1. 微秒級故障恢復:MRC 透過 SRv6 靜態源路由實現故障檢測和路由切換,恢復時間僅為微秒級。這一設計的關鍵在於將所有路由智慧集中在網絡卡(NIC)層面,交換機僅執行靜態路由,無需動態計算。這避免了兩種自適應機制相互干擾。在傳統網路中,交換機或鏈路故障可能需要數秒甚至數十秒才能恢復,而 MRC 能在故障發生時立即調整路徑,使訓練作業繼續執行。例如,當網絡卡的一個埠失效時,MRC 能迅速檢測並通知其他節點避開該埠,最大限度減少效能損失。
  1. 多平面網路架構:MRC 透過將單個 800Gb/s 介面拆分為多個較小的鏈路(例如八個 100Gb/s 平面),實現了更扁平的網路拓撲。這使得僅需兩層交換機即可連線約 13.1 萬個 GPU,而傳統 800Gb/s 網路需要三層甚至四層交換機。據 OpenAI 團隊量化,這種設計在全雙工頻寬下僅需傳統方案 2/3 的光學器件和 3/5 的交換機數量。更少的交換機層級也意味著更低的延遲(最長路徑僅經過三層交換機而非五層或七層),同時故障影響範圍也更小。

硬體支援方面,MRC 已執行在 NVIDIA ConnectX-8、AMD Pollara、AMD Vulcano 和 Broadcom Thor Ultra 等 400/800Gb/s RDMA 網絡卡上,並得到 NVIDIA Spectrum-4/5 和 Broadcom Tomahawk 5 交換機的 SRv6 支援。AMD 貢獻的 NSCC 擁塞控制演算法已成為 UEC 擁塞控制規範的一部分。

MRC 並非實驗室原型,而是已在生產中廣泛應用。它部署在 OpenAI 所有最大的 NVIDIA GB200 超級計算機上,包括位於德克薩斯州阿比林的 Oracle Cloud Infrastructure 站點以及 Microsoft 的 Fairwater 超級計算機(位於亞特蘭大和威斯康星州)。MRC 已被用於訓練 ChatGPT 和 Codex 的前沿大語言模型。在一次訓練過程中,OpenAI 需要重啟四臺 tier-1 交換機,但在 MRC 的支援下,無需與訓練團隊協調,作業得以順利繼續。

總結而言,MRC 透過創新的資料包噴灑、微秒級故障恢復和多平面網路架構,顯著提升了大規模 AI 訓練叢集的網路效能和可靠性,為構建更大規模的超級計算機提供了新的可能。