OpenAI推出MRC(多路径可靠连接):用于大规模AI超级计算机训练集群的全新开放网络协议
OpenAI与AMD、Broadcom、Intel、Microsoft和NVIDIA合作,发布了MRC协议。该协议通过自适应数据包喷洒消除拥塞,利用静态源路由实现微秒级故障恢复,并支持仅两层交换机拓扑连接超过10万个GPU。MRC已在OpenAI最大的超级计算机中部署,用于训练ChatGPT和Codex的前沿模型。
文章情报
要点
- OpenAI联合AMD、Broadcom、Intel、Microsoft和NVIDIA共同开发MRC,并通过开放计算项目(OCP)发布。
- MRC采用智能数据包喷洒技术,同时利用数百条路径传输,减少核心拥塞和尾部延迟。
- 微秒级故障恢复机制在链路或交换机故障时保持训练作业运行。
- 两层多平面网络架构支持13.1万个GPU,相比传统方案减少交换机数量和光学器件,降低成本与延迟。
为什么重要
这条新闻值得关注,因为OpenAI联合AMD、Broadcom、Intel、Microsoft和NVIDIA共同开发MRC,并通过开放计算项目(OCP)发布。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
OpenAI 近日宣布推出 MRC(Multipath Reliable Connection,多路径可靠连接)协议,这是一种专为大规模 AI 超级计算机训练集群设计的新型网络协议。该协议由 OpenAI 与 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 在过去两年中联合开发,并通过开放计算项目(OCP)发布,旨在解决 AI 训练中日益突出的网络瓶颈问题。
训练前沿 AI 模型不仅需要强大的计算能力,更对网络性能提出了极高要求。在大型模型训练过程中,每一步都可能涉及数百万次数据传输,任何一次传输的延迟都可能导致 GPU 空闲,从而造成巨大的计算资源和成本浪费。OpenAI 指出,网络拥塞、链路和设备故障是造成传输延迟和抖动的常见原因,并且随着集群规模的扩大,这些问题变得更加频繁和难以解决。目前每周有超过 9 亿用户使用 ChatGPT,维持和改进模型性能意味着每一秒的 GPU 空闲都代表着实际损失。
MRC 并非从零开始构建,而是基于 RDMA over Converged Ethernet(RoCE)标准进行了扩展。RoCE 允许设备直接通过以太网远程读写另一台设备的内存,绕过 CPU 以最大化吞吐量。MRC 进一步引入了 SRv6 段路由技术,发送端将精确路径编码在数据包头部,从而减轻交换机计算负担并节省功耗。MRC 的核心机制包括三个关键方面:
- 自适应数据包喷洒(Adaptive Packet Spraying):传统 RoCEv2 将每个传输限制在单一路径上,容易导致拥塞。MRC 则将数据包分散到数百条路径上同时传输,通过智能负载均衡实现更高带宽利用率和更低尾部延迟。即便某条路径不可用,数据包仍可通过其他路径到达,有效消除核心拥塞。
- 微秒级故障恢复:MRC 通过 SRv6 静态源路由实现故障检测和路由切换,恢复时间仅为微秒级。这一设计的关键在于将所有路由智能集中在网卡(NIC)层面,交换机仅执行静态路由,无需动态计算。这避免了两种自适应机制相互干扰。在传统网络中,交换机或链路故障可能需要数秒甚至数十秒才能恢复,而 MRC 能在故障发生时立即调整路径,使训练作业继续运行。例如,当网卡的一个端口失效时,MRC 能迅速检测并通知其他节点避开该端口,最大限度减少性能损失。
- 多平面网络架构:MRC 通过将单个 800Gb/s 接口拆分为多个较小的链路(例如八个 100Gb/s 平面),实现了更扁平的网络拓扑。这使得仅需两层交换机即可连接约 13.1 万个 GPU,而传统 800Gb/s 网络需要三层甚至四层交换机。据 OpenAI 团队量化,这种设计在全双工带宽下仅需传统方案 2/3 的光学器件和 3/5 的交换机数量。更少的交换机层级也意味着更低的延迟(最长路径仅经过三层交换机而非五层或七层),同时故障影响范围也更小。
硬件支持方面,MRC 已运行在 NVIDIA ConnectX-8、AMD Pollara、AMD Vulcano 和 Broadcom Thor Ultra 等 400/800Gb/s RDMA 网卡上,并得到 NVIDIA Spectrum-4/5 和 Broadcom Tomahawk 5 交换机的 SRv6 支持。AMD 贡献的 NSCC 拥塞控制算法已成为 UEC 拥塞控制规范的一部分。
MRC 并非实验室原型,而是已在生产中广泛应用。它部署在 OpenAI 所有最大的 NVIDIA GB200 超级计算机上,包括位于德克萨斯州阿比林的 Oracle Cloud Infrastructure 站点以及 Microsoft 的 Fairwater 超级计算机(位于亚特兰大和威斯康星州)。MRC 已被用于训练 ChatGPT 和 Codex 的前沿大语言模型。在一次训练过程中,OpenAI 需要重启四台 tier-1 交换机,但在 MRC 的支持下,无需与训练团队协调,作业得以顺利继续。
总结而言,MRC 通过创新的数据包喷洒、微秒级故障恢复和多平面网络架构,显著提升了大规模 AI 训练集群的网络性能和可靠性,为构建更大规模的超级计算机提供了新的可能。