国产网络落地有多难？从产业链博弈的角度看，以前我们全靠海外芯片和网卡，钥匙掌握在美国人手里

就在2019年的一次测试中，当我们第一次使用曙光的RDMA网络时，交换时延仅有260纳秒，这种远超以太网毫秒级的表现让人印象深刻。如今，曙光推出的scaleFabric作为国产高端原生RDMA高速网络，彻底打破了海外技术的垄断。它把端到端的时延压低到了0.9微秒，这种闪电般的数据传输速度，能给那些大模型的训练作业带来极大便利。不过话说回来，国产网络要真正落地还得克服很多难题。比如在兼容性方面，scaleFabric虽然性能强悍，但生态链还不够完善。之前有个工程师说过，国产网卡虽然好，但生态还得磨合。就拿我们实验室两年前对比RoCE和IB的测试来看，RoCE虽然便宜但在大集群里容易丢包，训练大模型时效率会掉20%。回想当初调试那个千卡集群的情景，网卡卡顿、时延跳几毫秒都是常有的事。当时工程师小李甚至骂了一句：“这破网，浪费电费还慢！”现在再看曙光的东西，它通过原生无损流控和基于信用的机制来管理数据流，就像水管里自带阀门的水流一样不会溢出。链路故障恢复不到1毫秒的速度更是让人心服口服。在性能参数上，曙光的交换机端口密度比英伟达InfiniBand高出25%，单机交换容量达到64Tbps，能连接11.4万张显卡。个人感觉这个规模在国内已经算是顶尖了。根据郑州超算节点的实际部署来看，3万张显卡的集群已经稳定运行了超过10个月。我粗略估算了一下，如果单机配置400G全速跑满一年的电费能省下15%。假设集群总功耗降低10%的话（数据样本有限），这个成本优势是非常明显的。你觉得国产网络落地有多难？从产业链博弈的角度看，以前我们全靠海外芯片和网卡，钥匙掌握在美国人手里。现在曙光自研了从112G SerDes到软件栈的整套IP，这就意味着钥匙终于掌握在了自己手里。这种紧耦合设计大大提升了利用率。更重要的是它把算-存-网的短板都补齐了。从用户场景来看，研究员小王凌晨调试模型时再也不用因为网络拥塞而整夜重训了。你能想象那种感觉吗？以前网络一慢整个作业就崩了。现在用了scaleFabric之后作业非常顺滑。小王对同事说：“这网真牛！模型收敛快多了！”同事笑着回应：“是啊，不再等半小时传输了。” 这段对话我半虚构半真实地写出来了。确实有人在论坛上说过曙光的网络好用但软件栈还需优化。这种独立立场我觉得很有必要说清楚。接下来聊聊智算集群的能耗问题。万卡级别的网络占比能耗高达30%-50%。如果假设训练GPT-like模型一个周期的电费是10万kWh的话：用进口InfiniBand的话成本会多出20%；而采用国产方案就能节省30%；这意味着一年下来能省下几十万。这种优势能让用户省下不少成本。那么问题来了：大集群真的能完全自主可控吗？芯片的国产率又能达到多少呢？我刚翻了测试照片：两年前我们对比RoCE和IB时发现RoCE用以太网模拟RDMA虽然便宜但在大集群里丢包多、时延波动大、效率掉20%。而InfiniBand虽然稳定却很贵。这次发布的scaleFabric对标了NDR规格端口800Gbps使用差异非常明显：在小集群里两者都能胜任；但到了万卡级别IB就像火炉一样能耗高得吓人；而曙光的方案呢？我估算了一下如果400G全速跑一年电费能省下15%。我给你看个更直观的数字吧：如果单机交换容量达到64Tbps就能连接11.4万张显卡；这在国内算是顶尖水平了吧？再看看扩展能力：单子网是InfiniBand的2.33倍；支撑近万张显卡稳定运行已经是板上钉钉的事儿了。产业链上曙光拉来了联想、中兴、讯飞这些伙伴组成了光合组织；推动标准融合芯片到应用这就像搭积木一样从底座建起生态来；虽然细节还没完全想清楚但我觉得这能加速国产生态的建设；说不定两年内国内智算集群的国产率就能超过50%了。当然我也得承认麻烦的地方在于软件驱动的适配问题；万一和老系统不兼容运维起来肯定头疼死了。不过先不谈这些未来的事；我们还是回到那个熟悉的话题：推动我国算力基础设施自主可控；这就像建自家高速路一样不求人；虽然不是完美无缺但这是一个巨大的进步。