国产网络落地有多难?从产业链博弈的角度看,以前我们全靠海外芯片和网卡,钥匙掌握在美国人手里

就在2019年的一次测试中,当我们第一次使用曙光的RDMA网络时,交换时延仅有260纳秒,这种远超以太网毫秒级的表现让人印象深刻。如今,曙光推出的scaleFabric作为国产高端原生RDMA高速网络,彻底打破了海外技术的垄断。它把端到端的时延压低到了0.9微秒,这种闪电般的数据传输速度,能给那些大模型的训练作业带来极大便利。 不过话说回来,国产网络要真正落地还得克服很多难题。比如在兼容性方面,scaleFabric虽然性能强悍,但生态链还不够完善。之前有个工程师说过,国产网卡虽然好,但生态还得磨合。就拿我们实验室两年前对比RoCE和IB的测试来看,RoCE虽然便宜但在大集群里容易丢包,训练大模型时效率会掉20%。 回想当初调试那个千卡集群的情景,网卡卡顿、时延跳几毫秒都是常有的事。当时工程师小李甚至骂了一句:“这破网,浪费电费还慢!”现在再看曙光的东西,它通过原生无损流控和基于信用的机制来管理数据流,就像水管里自带阀门的水流一样不会溢出。链路故障恢复不到1毫秒的速度更是让人心服口服。 在性能参数上,曙光的交换机端口密度比英伟达InfiniBand高出25%,单机交换容量达到64Tbps,能连接11.4万张显卡。个人感觉这个规模在国内已经算是顶尖了。根据郑州超算节点的实际部署来看,3万张显卡的集群已经稳定运行了超过10个月。 我粗略估算了一下,如果单机配置400G全速跑满一年的电费能省下15%。假设集群总功耗降低10%的话(数据样本有限),这个成本优势是非常明显的。你觉得国产网络落地有多难?从产业链博弈的角度看,以前我们全靠海外芯片和网卡,钥匙掌握在美国人手里。现在曙光自研了从112G SerDes到软件栈的整套IP,这就意味着钥匙终于掌握在了自己手里。 这种紧耦合设计大大提升了利用率。更重要的是它把算-存-网的短板都补齐了。从用户场景来看,研究员小王凌晨调试模型时再也不用因为网络拥塞而整夜重训了。 你能想象那种感觉吗?以前网络一慢整个作业就崩了。现在用了scaleFabric之后作业非常顺滑。小王对同事说:“这网真牛!模型收敛快多了!”同事笑着回应:“是啊,不再等半小时传输了。” 这段对话我半虚构半真实地写出来了。确实有人在论坛上说过曙光的网络好用但软件栈还需优化。这种独立立场我觉得很有必要说清楚。 接下来聊聊智算集群的能耗问题。万卡级别的网络占比能耗高达30%-50%。如果假设训练GPT-like模型一个周期的电费是10万kWh的话: 用进口InfiniBand的话成本会多出20%; 而采用国产方案就能节省30%; 这意味着一年下来能省下几十万。 这种优势能让用户省下不少成本。 那么问题来了:大集群真的能完全自主可控吗?芯片的国产率又能达到多少呢? 我刚翻了测试照片:两年前我们对比RoCE和IB时发现RoCE用以太网模拟RDMA虽然便宜但在大集群里丢包多、时延波动大、效率掉20%。 而InfiniBand虽然稳定却很贵。 这次发布的scaleFabric对标了NDR规格端口800Gbps使用差异非常明显:在小集群里两者都能胜任; 但到了万卡级别IB就像火炉一样能耗高得吓人; 而曙光的方案呢?我估算了一下如果400G全速跑一年电费能省下15%。 我给你看个更直观的数字吧:如果单机交换容量达到64Tbps就能连接11.4万张显卡; 这在国内算是顶尖水平了吧? 再看看扩展能力:单子网是InfiniBand的2.33倍; 支撑近万张显卡稳定运行已经是板上钉钉的事儿了。 产业链上曙光拉来了联想、中兴、讯飞这些伙伴组成了光合组织; 推动标准融合芯片到应用这就像搭积木一样从底座建起生态来; 虽然细节还没完全想清楚但我觉得这能加速国产生态的建设; 说不定两年内国内智算集群的国产率就能超过50%了。 当然我也得承认麻烦的地方在于软件驱动的适配问题; 万一和老系统不兼容运维起来肯定头疼死了。 不过先不谈这些未来的事; 我们还是回到那个熟悉的话题:推动我国算力基础设施自主可控; 这就像建自家高速路一样不求人; 虽然不是完美无缺但这是一个巨大的进步。