OpenAI推出MRC(多路徑可靠連接):用於大規模AI超級計算機訓練集羣的全新開放網絡協議
OpenAI與AMD、Broadcom、Intel、Microsoft和NVIDIA合作,發佈了MRC協議。該協議通過自適應數據包噴灑消除擁塞,利用靜態源路由實現微秒級故障恢復,並支持僅兩層交換機拓撲連接超過10萬個GPU。MRC已在OpenAI最大的超級計算機中部署,用於訓練ChatGPT和Codex的前沿模型。
文章情報
要點
- OpenAI聯合AMD、Broadcom、Intel、Microsoft和NVIDIA共同開發MRC,並通過開放計算項目(OCP)發佈。
- MRC採用智能數據包噴灑技術,同時利用數百條路徑傳輸,減少核心擁塞和尾部延遲。
- 微秒級故障恢復機制在鏈路或交換機故障時保持訓練作業運行。
- 兩層多平面網絡架構支持13.1萬個GPU,相比傳統方案減少交換機數量和光學器件,降低成本與延遲。
為甚麼重要
這條新聞值得關注,因為OpenAI聯合AMD、Broadcom、Intel、Microsoft和NVIDIA共同開發MRC,並通過開放計算項目(OCP)發佈。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
OpenAI 近日宣佈推出 MRC(Multipath Reliable Connection,多路徑可靠連接)協議,這是一種專為大規模 AI 超級計算機訓練集羣設計的新型網絡協議。該協議由 OpenAI 與 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 在過去兩年中聯合開發,並通過開放計算項目(OCP)發佈,旨在解決 AI 訓練中日益突出的網絡瓶頸問題。
訓練前沿 AI 模型不僅需要強大的計算能力,更對網絡性能提出了極高要求。在大型模型訓練過程中,每一步都可能涉及數百萬次數據傳輸,任何一次傳輸的延遲都可能導致 GPU 空閒,從而造成巨大的計算資源和成本浪費。OpenAI 指出,網絡擁塞、鏈路和設備故障是造成傳輸延遲和抖動的常見原因,並且隨着集羣規模的擴大,這些問題變得更加頻繁和難以解決。目前每週有超過 9 億用户使用 ChatGPT,維持和改進模型性能意味着每一秒的 GPU 空閒都代表着實際損失。
MRC 並非從零開始構建,而是基於 RDMA over Converged Ethernet(RoCE)標準進行了擴展。RoCE 允許設備直接通過以太網遠程讀寫另一台設備的內存,繞過 CPU 以最大化吞吐量。MRC 進一步引入了 SRv6 段路由技術,發送端將精確路徑編碼在數據包頭部,從而減輕交換機計算負擔並節省功耗。MRC 的核心機制包括三個關鍵方面:
- 自適應數據包噴灑(Adaptive Packet Spraying):傳統 RoCEv2 將每個傳輸限制在單一路徑上,容易導致擁塞。MRC 則將數據包分散到數百條路徑上同時傳輸,通過智能負載均衡實現更高帶寬利用率和更低尾部延遲。即便某條路徑不可用,數據包仍可通過其他路徑到達,有效消除核心擁塞。
- 微秒級故障恢復:MRC 通過 SRv6 靜態源路由實現故障檢測和路由切換,恢復時間僅為微秒級。這一設計的關鍵在於將所有路由智能集中在網卡(NIC)層面,交換機僅執行靜態路由,無需動態計算。這避免了兩種自適應機制相互干擾。在傳統網絡中,交換機或鏈路故障可能需要數秒甚至數十秒才能恢復,而 MRC 能在故障發生時立即調整路徑,使訓練作業繼續運行。例如,當網卡的一個端口失效時,MRC 能迅速檢測並通知其他節點避開該端口,最大限度減少性能損失。
- 多平面網絡架構:MRC 通過將單個 800Gb/s 接口拆分為多個較小的鏈路(例如八個 100Gb/s 平面),實現了更扁平的網絡拓撲。這使得僅需兩層交換機即可連接約 13.1 萬個 GPU,而傳統 800Gb/s 網絡需要三層甚至四層交換機。據 OpenAI 團隊量化,這種設計在全雙工帶寬下僅需傳統方案 2/3 的光學器件和 3/5 的交換機數量。更少的交換機層級也意味着更低的延遲(最長路徑僅經過三層交換機而非五層或七層),同時故障影響範圍也更小。
硬件支持方面,MRC 已運行在 NVIDIA ConnectX-8、AMD Pollara、AMD Vulcano 和 Broadcom Thor Ultra 等 400/800Gb/s RDMA 網卡上,並得到 NVIDIA Spectrum-4/5 和 Broadcom Tomahawk 5 交換機的 SRv6 支持。AMD 貢獻的 NSCC 擁塞控制算法已成為 UEC 擁塞控制規範的一部分。
MRC 並非實驗室原型,而是已在生產中廣泛應用。它部署在 OpenAI 所有最大的 NVIDIA GB200 超級計算機上,包括位於德克薩斯州阿比林的 Oracle Cloud Infrastructure 站點以及 Microsoft 的 Fairwater 超級計算機(位於亞特蘭大和威斯康星州)。MRC 已被用於訓練 ChatGPT 和 Codex 的前沿大語言模型。在一次訓練過程中,OpenAI 需要重啓四台 tier-1 交換機,但在 MRC 的支持下,無需與訓練團隊協調,作業得以順利繼續。
總結而言,MRC 通過創新的數據包噴灑、微秒級故障恢復和多平面網絡架構,顯著提升了大規模 AI 訓練集羣的網絡性能和可靠性,為構建更大規模的超級計算機提供了新的可能。