我们来聊聊这个事儿,Meta搞出的5nm MTIAv2芯片,到底能不能把英伟达H100给比下去?看看这组数据:功耗压到了90W,仅为H100七分之一;稀疏计算干到了708TFLOPS,比老版强了7倍。Meta工程师按动开关时,监控仪指针直接飙到了90W刻度线,这功耗看着吓人,其实挺省电的。台积电的5nm晶圆上这场硅基大战打得挺凶。 算力这边的数字挺有意思:MTIAv2的每个单元缓存扩容到384KB,频率也冲到了1.35GHz。可跟英伟达H100对比,人家同等精度下有3026TFLOPS呢。说到底,Meta这颗芯更像赛道上的精准卡位选手。 咱们用Llama3训练数据看看具体干活咋样:在广告推荐这种活儿上,服务吞吐量提升了6倍,每瓦性能也涨了1.5倍。这种效果主要是靠Meta对全栈的深度定制换来的,就像自家厨房用的炉灶虽然火力一般,但炒招牌菜特别顺手。 为了解决内存墙问题,台积电的CoWoS封装技术派上了大用场。它把计算核心和HBM内存叠在一起了,内存带宽立马翻倍了。这就好比在芯片里修了条直达数据仓库的高速路。不过相比英伟达已经进化到第四代的NVLink互联技术,Meta在这方面还是差点意思。 芯片面积只涨了13%,却换来3.5倍的稠密算力?这有点违反摩尔定律吧?其实是SIMT架构优化的结果。初代产品用的是SIMD设计,而这次MTIAv2学了英伟达的线程级并行架构,单个指令能驱动更多数据流了。 这软件适配成本自然高了不少。好在Meta只用了9个月就搞定了迭代——从流片到部署16个地区,这速度跟硅谷创业公司差不多。 在推理任务这块战场上,Meta突然就有了战斗力:双插槽CPU配上翻倍的设备数量,系统能同时处理复杂度差一百倍的模型。这弹性是设计时留了余量的结果。 但也有暴露出的问题:训练芯片项目接连取消了。Olympus项目流产表明,在海量数据并行的训练领域,英伟达CUDA生态的护城河还是深着呢。就像想用瑞士军刀干专业手术的活儿一样,单个模块再精巧也不行。 现在Meta想走第三条路:搞多元化芯片组合。发言人暗示以后可能会用自研推理芯片加采购训练芯片的混合模式。这样既能躲着英伟达的锋芒又能保住自主权。 当扎克伯格宣布年底要部署35万颗H100时,你可能没注意到背后的玄机:配合自研芯片后,Meta实际拿到的算力相当于60万颗H100。这种1+1大于2的效应才是AI芯片战争的最高境界——不是取代而是重组。 未来硅基世界的权力版图肯定还会变,但这一回博弈的筹码已经不一样了。