我国突破高速互联网络技术瓶颈自主可控算力底座建设迈出关键一步

一、问题：算力“越大越难用”，互联网络成为新关键当前，智能计算从“单机算力”竞争转向“集群效率”比拼。

随着大模型参数规模快速增长，训练任务需要成千上万张加速卡协同工作。

工业和信息化部数据显示，我国已建成万卡智算集群42个，智能算力规模超过1590 EFLOPS。

集群规模越大，越考验节点间数据交换能力：不仅要“算得快”，更要“连得稳、传得快、丢不得”。

在分布式训练中，各计算节点需频繁同步梯度等关键数据，通信延迟会直接拖慢整体训练节奏。

业内研究显示，大规模训练中网络通信耗时占比可达30%至50%。

这意味着，昂贵的加速卡可能有相当比例时间用于等待数据传输，系统整体效率被“传送带”卡住。

二、原因：高端互联技术门槛高，长期受制于人风险上升高速互联并非简单的“网速更快”，而是涵盖底层SerDes、交换与适配芯片、协议栈、无损机制、拥塞控制、管理软件等全链条能力。

数据中心高速网络主要存在两条技术路线：一是基于以太网演进的RoCE方案，兼容性强、部署相对便利，但在超大规模场景下对拥塞控制、无损传输和端到端时延稳定性提出更苛刻要求；二是面向高性能计算的原生互联体系，在低时延与扩展性方面优势明显，长期以来形成较高的技术壁垒。

值得关注的是，随着外部环境不确定性上升，关键软硬件产品面临供给收紧乃至断供的潜在风险。

GPU之后，高速互联网络可能成为新一轮影响我国智算基础设施安全与效率的“隐性瓶颈”。

一旦互联环节受限，集群规模越大，受影响越显著，甚至可能出现“单卡很强、整机不强”的结构性矛盾。

三、影响：效率与成本双重承压，制约产业创新节奏对智算中心而言，网络能力直接决定算力利用率、训练周期和运维复杂度。

业内人士指出，集群规模扩展至十万卡级别后，要实现长时间稳定运行，任何局部拥塞、丢包或时延抖动都可能引发连锁反应，影响训练任务的收敛与稳定。

从成本角度看，随着计算节点从“以CPU为主”转向“以加速卡为主”，单台服务器网卡数量显著增加，高速网络用量较传统数据中心增长10至20倍，互联网络从“配套项”变为基础设施中增长最快、影响最直接的关键投入。

若不能有效提升网络效率，智算中心的投资回报、能耗控制和服务能力都将面临挑战，进而影响科研攻关和产业应用落地节奏。

四、对策：加快补齐短板，推动全栈自主与生态协同在此背景下，国产高速互联加速破题。

3月12日，中科曙光发布首款全栈自研的400G原生无损RDMA高速网络scaleFabric，覆盖从112G SerDes IP、硬件设备到上层管理软件的全链条研发。

中国工程院院士邬贺铨评价称，该成果“补齐了国产高速网络的短板”。

业内专家认为，推进国产高速互联体系建设，需要从“单点替代”走向“体系化能力”：一是围绕无损传输、拥塞控制、时延稳定等关键指标持续优化，面向万卡、十万卡场景开展工程验证；二是与国产计算芯片、服务器、操作系统及调度软件协同适配，形成端到端可规模部署的解决方案；三是推动标准、测试与运维体系完善，提升跨厂商互联互通与可维护性；四是以应用牵引技术迭代，在智算中心、科研院所和重点行业场景中形成持续反馈与规模化落地。

五、前景：从“可用”走向“好用”，构筑面向未来的算力底座面向未来，随着大模型训练与推理并行发展、数据要素加速流动、算力服务走向普惠，互联网络将与计算、存储共同构成智算体系的“三大底座”。

国产高速互联的突破有望在三方面释放效应：其一，提高算力利用率、缩短训练周期，推动创新速度加快；其二，降低关键环节外部依赖，增强产业链供应链韧性；其三，带动上游器件、系统软件和运维工具协同升级，形成更完整的国产智算生态。

当然也应看到，高端互联的成熟需要持续投入与规模化验证，尤其在超大规模集群的稳定性、兼容性与长期运维方面仍需经受工程检验。

以应用场景为牵引，以生态协同为路径，推动关键技术从实验室指标走向产业级能力，将成为下一阶段竞争的关键。

算力之争，从来不是单点技术的比拼，而是整条产业链的系统较量。

从计算芯片到高速互联网络，每一次短板的暴露，都是一次重新审视自身能力边界的机会。

补齐短板固然重要，但更深层的命题在于：如何在技术迭代的每一个关键节点上，提前布局、主动应对，而非被动跟随。

这不仅是企业的课题，也是整个产业生态共同面对的长期考验。

我国突破高速互联网络技术瓶颈 自主可控算力底座建设迈出关键一步

我国突破高速互联网络技术瓶颈自主可控算力底座建设迈出关键一步