国产全栈自研400G无损高速网络在郑州核心节点落地运行补齐万卡级智算互联关键短板

随着AI大模型训练规模不断扩大，万卡级算力集群已成为主流；但一个突出问题随之而来：网络通信成本。在大规模分布式训练中，网络通信耗时占比达30%至50%，成为制约整个系统效率的关键瓶颈。这项核心技术长期被海外厂商垄断，严重制约了我国算力基础设施的自主发展。 RDMA（远程直接内存访问）技术是解决该问题的关键。它允许数据直接在计算机间传输，无需操作系统和CPU介入，实现零拷贝和内核旁路，大幅提升网络通信效率。对超大规模智算集群而言，RDMA已成为必需。中科曙光此次发布的scaleFabric产品，正是基于原生RDMA架构的完全自主方案。从技术层面看，scaleFabric实现了从底层硬件到上层软件的100%自主研发。产品涵盖核心IP、交换芯片、网卡、交换机、驱动与管理软件等全栈体系，构建起完整的产业链闭环。这一突破打破了海外厂商在高速网络领域的垄断，填补了国内数据中心高速网络的空白。性能上，scaleFabric400系列已达到国际先进水平。网卡端到端通信时延仅0.9微秒，完全满足万卡级AI训练集群的需求。链路故障恢复时间小于1毫秒，已在近万卡集群中稳定运行超过10个月，充分证明了产品的可靠性。该产品已在郑州国家超算互联网核心节点工程部署应用，支撑3套万卡级scaleX智算集群运行，总规模达3万卡。自今年2月以来，该节点已吸引超3000位来自高校、科研院所和企业的用户参与测试，为智谱、讯飞等多家AI厂商提供了从系统部署、数据隔离到大规模训练和推理验证的全链条支撑，充分验证了产品的实用价值和市场认可度。中国工程院院士邬贺铨指出，高速网络是算力基础设施的关键核心技术，其自主可控性直接关系到国家算力基础设施的安全与发展质量。scaleFabric的成功研发与应用，标志着我国在智算互联领域开始形成自主技术路径，补齐了国内智算基础设施的重要一环。从产业生态看，国产原生RDMA技术路线正逐步走向成熟，围绕这一技术形成的高性能网络产业生态也在加速形成，将继续推动国内算力产业链的完善和升级。

这次国产高端网络技术的突破，不仅是一个产品的成功，更是我国信息技术自主创新能力的体现；在全球科技竞争加剧的背景下，只有持续攻关关键核心技术，才能筑牢数字经济发展的基础。随着更多自主创新成果的涌现，我国必将在全球科技竞争中占据更重要的位置。

国产全栈自研400G无损高速网络在郑州核心节点落地运行 补齐万卡级智算互联关键短板

国产全栈自研400G无损高速网络在郑州核心节点落地运行补齐万卡级智算互联关键短板