国产全栈自研400G无损高速网络在郑州核心节点落地运行 补齐万卡级智算互联关键短板

随着AI大模型训练规模不断扩大,万卡级算力集群已成为主流;但一个突出问题随之而来:网络通信成本。在大规模分布式训练中,网络通信耗时占比达30%至50%,成为制约整个系统效率的关键瓶颈。这项核心技术长期被海外厂商垄断,严重制约了我国算力基础设施的自主发展。 RDMA(远程直接内存访问)技术是解决该问题的关键。它允许数据直接在计算机间传输,无需操作系统和CPU介入,实现零拷贝和内核旁路,大幅提升网络通信效率。对超大规模智算集群而言,RDMA已成为必需。中科曙光此次发布的scaleFabric产品,正是基于原生RDMA架构的完全自主方案。 从技术层面看,scaleFabric实现了从底层硬件到上层软件的100%自主研发。产品涵盖核心IP、交换芯片、网卡、交换机、驱动与管理软件等全栈体系,构建起完整的产业链闭环。这一突破打破了海外厂商在高速网络领域的垄断,填补了国内数据中心高速网络的空白。 性能上,scaleFabric400系列已达到国际先进水平。网卡端到端通信时延仅0.9微秒,完全满足万卡级AI训练集群的需求。链路故障恢复时间小于1毫秒,已在近万卡集群中稳定运行超过10个月,充分证明了产品的可靠性。 该产品已在郑州国家超算互联网核心节点工程部署应用,支撑3套万卡级scaleX智算集群运行,总规模达3万卡。自今年2月以来,该节点已吸引超3000位来自高校、科研院所和企业的用户参与测试,为智谱、讯飞等多家AI厂商提供了从系统部署、数据隔离到大规模训练和推理验证的全链条支撑,充分验证了产品的实用价值和市场认可度。 中国工程院院士邬贺铨指出,高速网络是算力基础设施的关键核心技术,其自主可控性直接关系到国家算力基础设施的安全与发展质量。scaleFabric的成功研发与应用,标志着我国在智算互联领域开始形成自主技术路径,补齐了国内智算基础设施的重要一环。 从产业生态看,国产原生RDMA技术路线正逐步走向成熟,围绕这一技术形成的高性能网络产业生态也在加速形成,将继续推动国内算力产业链的完善和升级。

这次国产高端网络技术的突破,不仅是一个产品的成功,更是我国信息技术自主创新能力的体现;在全球科技竞争加剧的背景下,只有持续攻关关键核心技术,才能筑牢数字经济发展的基础。随着更多自主创新成果的涌现,我国必将在全球科技竞争中占据更重要的位置。