问题:算力竞赛“加速”,瓶颈转向“互联” 近年来,大模型训练规模持续攀升,算力基础设施从“千卡并行”快速迈向“万卡协同”,并向“十万卡级”演进。业内普遍认为,单卡算力的提升固然重要,但当集群规模扩大后,决定系统整体效率的关键变量正变化:计算节点之间的通信时延、带宽利用率、丢包与拥塞控制、链路可靠性等网络因素,逐渐成为限制训练吞吐与算力利用率的主要瓶颈。尤其在超大规模并行训练场景中,一旦出现网络抖动或拥塞,可能造成大量计算卡等待同步,导致集群“算得快、等得久”。 原因:GPU节点网络需求激增,协同可靠性要求更高 与传统以CPU为中心的数据中心不同,面向大模型训练的GPU服务器通常需要更多高带宽网卡与端口配置,网络规模和复杂度呈倍增趋势。中科曙光对应的负责人指出,以GPU为中心的计算节点中,一台服务器往往需要配置多张甚至更多网卡,整体高速网络的端口数量和流量负载提升,较以往数据中心高速网络需求增加一个数量级。另外,训练任务对通信的实时性与稳定性要求更严格:超大规模集群要实现长时间高效协同,任何微小故障都可能被放大为系统级效率损失,这对无损传输、拥塞控制、故障恢复等能力提出更高标准。 影响:高速网络成为智算基础设施“关键一环” 在此背景下,围绕高速互联的技术突破与产业布局,正在成为智算基础设施竞争的新焦点。3月12日,中科曙光在郑州发布全栈自研的400G无损高速网络产品scaleFabric。该产品面向高端RDMA应用场景,覆盖从底层112G SerDes IP到上层管理软件的系统能力,强调端到端协同与可运维性。公开信息显示,其端到端通信时延最低可达0.9微秒,链路故障恢复时间小于1毫秒;在组网能力上,单子网互连规模相较传统InfiniBand架构可实现更大扩展,理论上可支持最高11.4万卡规模集群部署;交换侧单端口带宽可达800Gbps,整机交换容量可达双向64Tbps。 更值得关注的是落地验证。中科曙光披露,该网络系统已国家超算互联网位于郑州的核心节点部署并稳定运行超过10个月,支撑多套万卡级集群上线,累计规模约3万卡,并承载真实的大模型训练任务。业内人士指出,在真实生产环境中以万卡级规模持续稳定运行,较实验室测试更能反映系统工程能力与运维成熟度。 对策:从“拼参数”走向“建体系”,以开放生态提升可用性 业内分析认为,高速网络竞争不仅是单点指标比拼,更是系统工程与生态能力的较量。长期以来,国际主流方案在软硬件协同、通信库、工具链与应用适配上形成较完整的闭环体系,既降低部署门槛,也提高开发与迁移效率。要在高端互联领域形成可持续竞争力,需要在多个层面同步推进:一是持续提升端到端稳定性与可靠性,完善无损机制、拥塞控制与故障快速收敛能力;二是强化与算力平台、调度系统、训练框架的适配,降低用户在迁移与调优上的成本;三是推进开放合作,形成覆盖芯片、网卡、交换、软件栈与运维工具的生态协同,增强规模化复制能力。 从应用侧看,北京科技大学相关研究人员指出,在传统高性能计算及大模型训练中,通信开销往往占据较大比重。若通信能力补齐并稳定发挥,应用对计算资源的有效利用率有望更提升,从而降低单位训练成本,缩短模型迭代周期。 前景:互联能力提升将推动智算集群迈向更大规模、更高效率 展望未来,随着大模型训练对并行度、吞吐和稳定性的要求持续提高,网络互联将与计算、存储一样,成为智算基础设施建设的基础要素。国内厂商在高速互联领域的持续突破,有助于推动从关键部件到系统平台的整体能力提升,并为超大规模集群的自主可控与多元化供给提供支撑。但也应看到,面向十万卡级乃至更大规模的场景,挑战仍集中在长时间稳定协同、规模化运维、软硬件适配效率以及生态成熟度等。只有在真实业务场景中不断验证、迭代并形成可复制的工程体系,才能把“可用”进一步走向“好用、耐用、易用”。
从技术跟跑到并跑,中科曙光在高速网络领域的突破,不仅是单一产品的成功,更是我国智算基础设施自主创新能力提升的缩影。在全球算力竞争日益激烈的背景下,掌握核心技术、构建完善生态,将是我国智算产业实现高质量发展的必由之路。该突破为我国在新一轮科技革命中赢得主动权奠定了坚实基础。