互联网资讯 / 手机数码 · 2026年5月8日 0

五大公司联合发布MRC协议,重塑AI训练网络架构

5月7日,OpenAI于5月6日发布了一项公告,旨在解决大规模AI训练过程中遇到的网络延迟和故障问题。该公司与AMD、博通、英特尔、微软和英伟达等多家企业联合推出了名为MRC(多路径可靠连接)的协议,并通过开放计算项目(OCP)向整个行业进行发布。

OpenAI携手英伟达等5大巨头发布MRC协议,重塑大规模AI训练网络架构

根据相关介绍,MRC全称为Multipath Reliable Connection,扩展自RoCE标准,并结合了SRv6技术。该协议的开源发布旨在提升超级计算机网络的性能和韧性。

在大规模训练AI模型的过程中,网络面临着严峻的挑战,单一的数据传输延迟可能导致训练过程的中断,从而使GPU处于闲置状态。网络拥塞、链路故障及设备问题是主要成因,且随着集群规模的扩大,这些问题的出现频率也在增加。

为了解决传统网络架构扩展性不足的问题,MRC采用了多平面网络设计。通过将单个800Gb/s接口划分为多个较小的链路,系统仅需两层交换机即可连接大约13.1万块GPU。这种设计相较于传统的三层或四层架构,显著降低了网络功耗与组件数量,同时增强了路径的多样性。

在流量调度方面,MRC引入了自适应数据包喷淋技术。与传统单路径传输不同,该技术将单一任务的数据包分散至数百条路径进行并行传输,有效避免了核心网络的拥塞。即便数据包乱序到达,接收端也能根据内存地址信息进行正确重组。

为了简化网络控制,MRC摒弃了复杂的动态路由协议,改为采用SRv6源路由。发送端直接指定数据包的传输路径,交换机仅需依据静态配置表进行转发。这一机制消除了动态路由的故障行为,使得网络故障恢复时间从秒级缩短至微秒级。

实际部署的数据表明,MRC已经在NVIDIA GB200超级计算机及Oracle Cloud Infrastructure(OCI)站点得到了应用。在真实的训练场景中,即使发生链路抖动或交换机重启,MRC也能够在不中断训练任务的情况下自动绕过故障。