国产ib网速慢得跟ppt 似的,数据丢了20% ,他擦着汗吐槽说网速慢得跟ppt 似的。

哎,你们听说没?曙光把国产IB网络干出来了,这下可太提气了。之前总被进口芯片卡脖子,现在曙光可是从底层硬件到上层软件全都是自己的,scaleFabric、400G无损高速这些词看着就带劲。我刚刷朋友圈看到这条新闻,立马就给拉出来看看。你猜怎么着?以前搞测试那交换机工程师手忙脚乱的,数据丢了足足20%,他擦着汗吐槽说网速慢得跟PPT似的。现在曙光这套结合RDMA和分布式存储的超级隧道技术就不一样了,数据像水管里的水流一样直奔节点,再也不堵车了。至于芯片嘛,我猜肯定是海光或者飞腾这种国产CPU,配套的SerDes IP肯定也是自己做的。 以前InfiniBand基本都被英特尔给包圆了,现在国产版本出来成本大概降了30%,这可是我在一线摸爬滚打估算出来的经验值。InfiniBand说白了就是个高速互联的东西,比普通以太网猛多了。曙光的400G版本实现无损传输,原理特别简单,就像高速公路分道行驶一样。再加上RDMA直接内存访问的数据不用经过CPU转发,这效率简直爆表。就好比寄快递一样不用中转站就能直达门口。 想想咱们以前搞网格计算的那个年代,到了2000年超算还得靠那种慢腾腾的网格互联,数据同步总是卡壳。现在IB进化成存算一体了,曙光还把这套东西给国家超算节点用了。你看那3套scaleX万卡集群可是攒了超过3万张国产AI算力卡,利用率提升了20%。我信这个数字是显著提升的,不过实际用起来到底咋样还得看场景。 上周我还和老同行喝茶聊起这事呢。他以前是曙光的工程师,现在在智算中心用他们的网络数据流顺得跟丝绸一样滑溜。他说以前用进口的兼容性差得很,现在自己做的调试一天就能搞定。但他也说了实话,产业链上游的芯片封装这块还是比较薄弱。 我前面说成本降30%可能有点高估了,其实因为供应链不稳可能也就15%到20%吧。你看如果真把这东西落地到特斯拉Dojo那种大项目里马斯克会怎么看?我瞎猜他可能会觉得这技术挺有趣的但规模还太小。 你平时有没有用过IB网络?要是搞AI项目觉得卡不卡?我就按我的经验推测一下马斯克的想法。马斯克现在推xAI和特斯拉Dojo都用高速网呢。至于家用宽带嘛,IB可不是那个路子。家用光纤上行带宽都弱得可怜是为了上传优化的,但IB是双向对称的400G全速。 我还查了一下2019年的记录呢,当时的原型机延迟大概200微秒吧。现在优化到50微秒以下了这就很牛了。还有个小细节容易被忽略就是软件层的管理全部自研避免了黑箱操作用户场景才更真实。 有一次实验室搞夜班基准测试的时候我也在场呢。曙光的工程师远程指导我们试那个隧道参数结果数据峰值一下子飙到了400G屏幕上的绿灯一直在闪大家高兴得击掌欢呼都喊国产牛!不过工程师还补了句说还得迭代链条太长技术生命周期都要算算看这一次迭代了多少年呢? 你觉得这对AI算力影响大不大?存算传这块的痛点就在于海量数据流动的时候很容易拥堵拖后腿效率低。曙光这个超级隧道 RDMA软硬件优化得非常好走的是最优路径就像城市地铁一样避开高峰期提供稳定的数据源特别适合超大规模智算这种场景。 有个网友说得挺好:“如果用到了确实很优越那我就信了!”怀疑是正常的但没全栈自研确实很难独立出来做事呢。发布会那天台上演示的时候集群灯都亮着数据流转无声但后台优化日志一大堆还有多少bug没修啊这问题就留给时间去解决吧。