2026-05-07站内改写

OpenAI推出MRC（多路徑可靠連接）：用於大規模AI超級計算機訓練集羣的全新開放網絡協議

OpenAI與AMD、Broadcom、Intel、Microsoft和NVIDIA合作，發佈了MRC協議。該協議通過自適應數據包噴灑消除擁塞，利用靜態源路由實現微秒級故障恢復，並支持僅兩層交換機拓撲連接超過10萬個GPU。MRC已在OpenAI最大的超級計算機中部署，用於訓練ChatGPT和Codex的前沿模型。

文章情報

工程師進階

要點

OpenAI聯合AMD、Broadcom、Intel、Microsoft和NVIDIA共同開發MRC，並通過開放計算項目（OCP）發佈。
MRC採用智能數據包噴灑技術，同時利用數百條路徑傳輸，減少核心擁塞和尾部延遲。
微秒級故障恢復機制在鏈路或交換機故障時保持訓練作業運行。
兩層多平面網絡架構支持13.1萬個GPU，相比傳統方案減少交換機數量和光學器件，降低成本與延遲。

為甚麼重要

這條新聞值得關注，因為OpenAI聯合AMD、Broadcom、Intel、Microsoft和NVIDIA共同開發MRC，並通過開放計算項目（OCP）發佈。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

OpenAI 近日宣佈推出 MRC（Multipath Reliable Connection，多路徑可靠連接）協議，這是一種專為大規模 AI 超級計算機訓練集羣設計的新型網絡協議。該協議由 OpenAI 與 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 在過去兩年中聯合開發，並通過開放計算項目（OCP）發佈，旨在解決 AI 訓練中日益突出的網絡瓶頸問題。

訓練前沿 AI 模型不僅需要強大的計算能力，更對網絡性能提出了極高要求。在大型模型訓練過程中，每一步都可能涉及數百萬次數據傳輸，任何一次傳輸的延遲都可能導致 GPU 空閒，從而造成巨大的計算資源和成本浪費。OpenAI 指出，網絡擁塞、鏈路和設備故障是造成傳輸延遲和抖動的常見原因，並且隨着集羣規模的擴大，這些問題變得更加頻繁和難以解決。目前每週有超過 9 億用户使用 ChatGPT，維持和改進模型性能意味着每一秒的 GPU 空閒都代表着實際損失。

MRC 並非從零開始構建，而是基於 RDMA over Converged Ethernet（RoCE）標準進行了擴展。RoCE 允許設備直接通過以太網遠程讀寫另一台設備的內存，繞過 CPU 以最大化吞吐量。MRC 進一步引入了 SRv6 段路由技術，發送端將精確路徑編碼在數據包頭部，從而減輕交換機計算負擔並節省功耗。MRC 的核心機制包括三個關鍵方面：

自適應數據包噴灑（Adaptive Packet Spraying）：傳統 RoCEv2 將每個傳輸限制在單一路徑上，容易導致擁塞。MRC 則將數據包分散到數百條路徑上同時傳輸，通過智能負載均衡實現更高帶寬利用率和更低尾部延遲。即便某條路徑不可用，數據包仍可通過其他路徑到達，有效消除核心擁塞。

微秒級故障恢復：MRC 通過 SRv6 靜態源路由實現故障檢測和路由切換，恢復時間僅為微秒級。這一設計的關鍵在於將所有路由智能集中在網卡（NIC）層面，交換機僅執行靜態路由，無需動態計算。這避免了兩種自適應機制相互干擾。在傳統網絡中，交換機或鏈路故障可能需要數秒甚至數十秒才能恢復，而 MRC 能在故障發生時立即調整路徑，使訓練作業繼續運行。例如，當網卡的一個端口失效時，MRC 能迅速檢測並通知其他節點避開該端口，最大限度減少性能損失。

多平面網絡架構：MRC 通過將單個 800Gb/s 接口拆分為多個較小的鏈路（例如八個 100Gb/s 平面），實現了更扁平的網絡拓撲。這使得僅需兩層交換機即可連接約 13.1 萬個 GPU，而傳統 800Gb/s 網絡需要三層甚至四層交換機。據 OpenAI 團隊量化，這種設計在全雙工帶寬下僅需傳統方案 2/3 的光學器件和 3/5 的交換機數量。更少的交換機層級也意味着更低的延遲（最長路徑僅經過三層交換機而非五層或七層），同時故障影響範圍也更小。

硬件支持方面，MRC 已運行在 NVIDIA ConnectX-8、AMD Pollara、AMD Vulcano 和 Broadcom Thor Ultra 等 400/800Gb/s RDMA 網卡上，並得到 NVIDIA Spectrum-4/5 和 Broadcom Tomahawk 5 交換機的 SRv6 支持。AMD 貢獻的 NSCC 擁塞控制算法已成為 UEC 擁塞控制規範的一部分。

MRC 並非實驗室原型，而是已在生產中廣泛應用。它部署在 OpenAI 所有最大的 NVIDIA GB200 超級計算機上，包括位於德克薩斯州阿比林的 Oracle Cloud Infrastructure 站點以及 Microsoft 的 Fairwater 超級計算機（位於亞特蘭大和威斯康星州）。MRC 已被用於訓練 ChatGPT 和 Codex 的前沿大語言模型。在一次訓練過程中，OpenAI 需要重啓四台 tier-1 交換機，但在 MRC 的支持下，無需與訓練團隊協調，作業得以順利繼續。

總結而言，MRC 通過創新的數據包噴灑、微秒級故障恢復和多平面網絡架構，顯著提升了大規模 AI 訓練集羣的網絡性能和可靠性，為構建更大規模的超級計算機提供了新的可能。