2026-05-07站内改写

OpenAI推出MRC（多路徑可靠連線）：用於大規模AI超級計算機訓練叢集的全新開放網路協議

OpenAI與AMD、Broadcom、Intel、Microsoft和NVIDIA合作，釋出了MRC協議。該協議透過自適應資料包噴灑消除擁塞，利用靜態源路由實現微秒級故障恢復，並支援僅兩層交換機拓撲連線超過10萬個GPU。MRC已在OpenAI最大的超級計算機中部署，用於訓練ChatGPT和Codex的前沿模型。

文章情報

工程師進階

要點

OpenAI聯合AMD、Broadcom、Intel、Microsoft和NVIDIA共同開發MRC，並透過開放計算專案（OCP）釋出。
MRC採用智慧資料包噴灑技術，同時利用數百條路徑傳輸，減少核心擁塞和尾部延遲。
微秒級故障恢復機制在鏈路或交換機故障時保持訓練作業執行。
兩層多平面網路架構支援13.1萬個GPU，相比傳統方案減少交換機數量和光學器件，降低成本與延遲。

為什麼重要

這條新聞值得關注，因為OpenAI聯合AMD、Broadcom、Intel、Microsoft和NVIDIA共同開發MRC，並透過開放計算專案（OCP）釋出。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

OpenAI 近日宣佈推出 MRC（Multipath Reliable Connection，多路徑可靠連線）協議，這是一種專為大規模 AI 超級計算機訓練叢集設計的新型網路協議。該協議由 OpenAI 與 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 在過去兩年中聯合開發，並透過開放計算專案（OCP）釋出，旨在解決 AI 訓練中日益突出的網路瓶頸問題。

訓練前沿 AI 模型不僅需要強大的計算能力，更對網路效能提出了極高要求。在大型模型訓練過程中，每一步都可能涉及數百萬次資料傳輸，任何一次傳輸的延遲都可能導致 GPU 空閒，從而造成巨大的計算資源和成本浪費。OpenAI 指出，網路擁塞、鏈路和裝置故障是造成傳輸延遲和抖動的常見原因，並且隨著叢集規模的擴大，這些問題變得更加頻繁和難以解決。目前每週有超過 9 億使用者使用 ChatGPT，維持和改進模型效能意味著每一秒的 GPU 空閒都代表著實際損失。

MRC 並非從零開始構建，而是基於 RDMA over Converged Ethernet（RoCE）標準進行了擴充套件。RoCE 允許裝置直接透過乙太網遠端讀寫另一臺裝置的記憶體，繞過 CPU 以最大化吞吐量。MRC 進一步引入了 SRv6 段路由技術，傳送端將精確路徑編碼在資料包頭部，從而減輕交換機計算負擔並節省功耗。MRC 的核心機制包括三個關鍵方面：

自適應資料包噴灑（Adaptive Packet Spraying）：傳統 RoCEv2 將每個傳輸限制在單一路徑上，容易導致擁塞。MRC 則將資料包分散到數百條路徑上同時傳輸，透過智慧負載均衡實現更高頻寬利用率和更低尾部延遲。即便某條路徑不可用，資料包仍可透過其他路徑到達，有效消除核心擁塞。

微秒級故障恢復：MRC 透過 SRv6 靜態源路由實現故障檢測和路由切換，恢復時間僅為微秒級。這一設計的關鍵在於將所有路由智慧集中在網絡卡（NIC）層面，交換機僅執行靜態路由，無需動態計算。這避免了兩種自適應機制相互干擾。在傳統網路中，交換機或鏈路故障可能需要數秒甚至數十秒才能恢復，而 MRC 能在故障發生時立即調整路徑，使訓練作業繼續執行。例如，當網絡卡的一個埠失效時，MRC 能迅速檢測並通知其他節點避開該埠，最大限度減少效能損失。

多平面網路架構：MRC 透過將單個 800Gb/s 介面拆分為多個較小的鏈路（例如八個 100Gb/s 平面），實現了更扁平的網路拓撲。這使得僅需兩層交換機即可連線約 13.1 萬個 GPU，而傳統 800Gb/s 網路需要三層甚至四層交換機。據 OpenAI 團隊量化，這種設計在全雙工頻寬下僅需傳統方案 2/3 的光學器件和 3/5 的交換機數量。更少的交換機層級也意味著更低的延遲（最長路徑僅經過三層交換機而非五層或七層），同時故障影響範圍也更小。

硬體支援方面，MRC 已執行在 NVIDIA ConnectX-8、AMD Pollara、AMD Vulcano 和 Broadcom Thor Ultra 等 400/800Gb/s RDMA 網絡卡上，並得到 NVIDIA Spectrum-4/5 和 Broadcom Tomahawk 5 交換機的 SRv6 支援。AMD 貢獻的 NSCC 擁塞控制演算法已成為 UEC 擁塞控制規範的一部分。

MRC 並非實驗室原型，而是已在生產中廣泛應用。它部署在 OpenAI 所有最大的 NVIDIA GB200 超級計算機上，包括位於德克薩斯州阿比林的 Oracle Cloud Infrastructure 站點以及 Microsoft 的 Fairwater 超級計算機（位於亞特蘭大和威斯康星州）。MRC 已被用於訓練 ChatGPT 和 Codex 的前沿大語言模型。在一次訓練過程中，OpenAI 需要重啟四臺 tier-1 交換機，但在 MRC 的支援下，無需與訓練團隊協調，作業得以順利繼續。

總結而言，MRC 透過創新的資料包噴灑、微秒級故障恢復和多平面網路架構，顯著提升了大規模 AI 訓練叢集的網路效能和可靠性，為構建更大規模的超級計算機提供了新的可能。