我国突破高速互联网络技术瓶颈 自主可控算力底座建设迈出关键一步

一、问题:算力“越大越难用”,互联网络成为新关键 当前,智能计算从“单机算力”竞争转向“集群效率”比拼。

随着大模型参数规模快速增长,训练任务需要成千上万张加速卡协同工作。

工业和信息化部数据显示,我国已建成万卡智算集群42个,智能算力规模超过1590 EFLOPS。

集群规模越大,越考验节点间数据交换能力:不仅要“算得快”,更要“连得稳、传得快、丢不得”。

在分布式训练中,各计算节点需频繁同步梯度等关键数据,通信延迟会直接拖慢整体训练节奏。

业内研究显示,大规模训练中网络通信耗时占比可达30%至50%。

这意味着,昂贵的加速卡可能有相当比例时间用于等待数据传输,系统整体效率被“传送带”卡住。

二、原因:高端互联技术门槛高,长期受制于人风险上升 高速互联并非简单的“网速更快”,而是涵盖底层SerDes、交换与适配芯片、协议栈、无损机制、拥塞控制、管理软件等全链条能力。

数据中心高速网络主要存在两条技术路线:一是基于以太网演进的RoCE方案,兼容性强、部署相对便利,但在超大规模场景下对拥塞控制、无损传输和端到端时延稳定性提出更苛刻要求;二是面向高性能计算的原生互联体系,在低时延与扩展性方面优势明显,长期以来形成较高的技术壁垒。

值得关注的是,随着外部环境不确定性上升,关键软硬件产品面临供给收紧乃至断供的潜在风险。

GPU之后,高速互联网络可能成为新一轮影响我国智算基础设施安全与效率的“隐性瓶颈”。

一旦互联环节受限,集群规模越大,受影响越显著,甚至可能出现“单卡很强、整机不强”的结构性矛盾。

三、影响:效率与成本双重承压,制约产业创新节奏 对智算中心而言,网络能力直接决定算力利用率、训练周期和运维复杂度。

业内人士指出,集群规模扩展至十万卡级别后,要实现长时间稳定运行,任何局部拥塞、丢包或时延抖动都可能引发连锁反应,影响训练任务的收敛与稳定。

从成本角度看,随着计算节点从“以CPU为主”转向“以加速卡为主”,单台服务器网卡数量显著增加,高速网络用量较传统数据中心增长10至20倍,互联网络从“配套项”变为基础设施中增长最快、影响最直接的关键投入。

若不能有效提升网络效率,智算中心的投资回报、能耗控制和服务能力都将面临挑战,进而影响科研攻关和产业应用落地节奏。

四、对策:加快补齐短板,推动全栈自主与生态协同 在此背景下,国产高速互联加速破题。

3月12日,中科曙光发布首款全栈自研的400G原生无损RDMA高速网络scaleFabric,覆盖从112G SerDes IP、硬件设备到上层管理软件的全链条研发。

中国工程院院士邬贺铨评价称,该成果“补齐了国产高速网络的短板”。

业内专家认为,推进国产高速互联体系建设,需要从“单点替代”走向“体系化能力”:一是围绕无损传输、拥塞控制、时延稳定等关键指标持续优化,面向万卡、十万卡场景开展工程验证;二是与国产计算芯片、服务器、操作系统及调度软件协同适配,形成端到端可规模部署的解决方案;三是推动标准、测试与运维体系完善,提升跨厂商互联互通与可维护性;四是以应用牵引技术迭代,在智算中心、科研院所和重点行业场景中形成持续反馈与规模化落地。

五、前景:从“可用”走向“好用”,构筑面向未来的算力底座 面向未来,随着大模型训练与推理并行发展、数据要素加速流动、算力服务走向普惠,互联网络将与计算、存储共同构成智算体系的“三大底座”。

国产高速互联的突破有望在三方面释放效应:其一,提高算力利用率、缩短训练周期,推动创新速度加快;其二,降低关键环节外部依赖,增强产业链供应链韧性;其三,带动上游器件、系统软件和运维工具协同升级,形成更完整的国产智算生态。

当然也应看到,高端互联的成熟需要持续投入与规模化验证,尤其在超大规模集群的稳定性、兼容性与长期运维方面仍需经受工程检验。

以应用场景为牵引,以生态协同为路径,推动关键技术从实验室指标走向产业级能力,将成为下一阶段竞争的关键。

算力之争,从来不是单点技术的比拼,而是整条产业链的系统较量。

从计算芯片到高速互联网络,每一次短板的暴露,都是一次重新审视自身能力边界的机会。

补齐短板固然重要,但更深层的命题在于:如何在技术迭代的每一个关键节点上,提前布局、主动应对,而非被动跟随。

这不仅是企业的课题,也是整个产业生态共同面对的长期考验。