中国高端数据中心用网迈入国产化时代

中科曙光把全球首款自主研发的400G全栈RDMA网络——scaleFabric推向市场，让中国高端数据中心用网迈入了国产化时代。在3月12日的发布会上，这家企业用技术硬实力填补了国内高性能互联领域的空白。根据业内研究，万卡级的大模型训练已成为常态，这种规模下的网络通信耗时能占到整体运算时间的30%到50%。为了应对这一挑战，scaleFabric专门给超大规模智算集群打造了一条高速带宽和超低延迟的“算力大动脉”。作为一个完整的自主研发体系，这个产品在底层SerDes IP和硬件设计、上层管理软件方面都实现了100%国产化。它的性能指标直接对标国际领先厂商英伟达NDR，有些地方甚至实现了赶超。这款网卡采用PCIe5.0接口后，端口带宽直接达到了400Gbps，端到端的延迟更是被压低到了0.9微秒。至于交换机，单端口带宽做到了800Gbps，整机双向交换容量有64Tbps之多。这一技术组合能够让万卡级集群同时获得超高带宽和低延迟。为了保证稳定运行，scaleFabric采用了基于信用的无损流控机制。它不仅能让拥塞丢包风险从源头上消失，还能把链路故障恢复时间压缩到1毫秒以内。现在这个系统已经支持超过10个月的万卡集群运行验证。在实际使用中，它把交换机的端口密度提升了25%，把子网互连规模扩大到了传统InfiniBand的2.33倍。凭借这些优势，scaleFabric的网络总成本降低了30%，最大能支撑11.4万卡的规模。在落地应用方面，scaleFabric目前已经部署在国家超算互联网的郑州核心节点上。这里总共上线了三套万卡级的智算集群，整体规模达到了3万卡。中科曙光高级副总裁李斌说，随着这套系统在实际中的表现越来越好，国产智算网络的技术路线已经开始成熟起来。根据TOP500榜单显示，全球约60%的高性能计算系统都在用InfiniBand网络。在过去很长时间里，这类核心技术都被海外厂商牢牢掌控着。邬贺铨院士在视频致辞中提到，高速网络是算力基础设施的核心关键技术。在大模型训练和大规模部署的背景下，网络必须同时具备超低延迟、超高带宽和无损传输能力。AI的快速发展让自主高性能RDMA网络成了产业关注的焦点。中科院院士邬贺铨还指出：“高速网络作为算力基础设施的核心关键技术，其自主可控性直接关系到国家算力基础设施的安全与发展质量。” 有了这样的技术积累，中科曙光已经建立了“算—存—网”协同发展的完整底座能力。随着政府工作报告提出推进“人工智能+”，算力基础设施正迎来新一轮升级周期。scaleFabric的发布标志着我国在高端智算互联这个关键环节上开始形成自主技术路径。这个产品不仅为国内数据中心补上了缺失的一环，也为未来大规模AI基础设施提供了坚实的系统级支撑。