meta与amd 合作,砸下了好几百亿美元。这笔钱花得实在,不只是把显卡买回来,而是把超大规模数据中心

大家都知道了,Meta跟AMD合作,砸下了好几百亿美元。这笔钱花得实在,不只是把显卡买回来,而是把超大规模数据中心的计算方式给彻底变了样。以前的数据中心,那都是围着CPU转,做那种很规矩的线性任务还行,但一到做图形渲染、搞机器学习这种并行计算的活儿,就显得力不从心,因为内存带宽不够用,指令集也跟不上节奏。 现在的AI模型,特别是大语言模型和推荐系统,运算量特别大,全是那种低精度的浮点或整数运算,而且大家都在抢着跑。为了伺候好这些个活儿,就得专门养几台硬件处理器。本来GPU是给游戏画面设计的,里头塞了几千个小核心,正好能对付这种并行活儿。 但这东西不能光靠一种处理器。模型越来越大,单靠一种加速卡肯定不够用了。所以计算任务就像切萝卜丝似的细分出来了,有的专负责训练,有的专搞推理,还有的是按不同的精度来区分。这次协议里涉及的硬件,就是专门给这块细分市场用的,目的就是为了在特定的活计上,把每一度电里的算力榨干,把计算密度搞上去。 能效比现在是个生死指标。机器费电不光是电费高,散热也是一笔大开销。以前大家比谁家机器跑的快,现在比的是谁家的电更值钱。AMD这次拿出来的解决方案就是在芯片里塞了高速内存、改了数据路线、还用上了新的联网协议。 光有一个强硬件还不够用。单个设备的天花板摆在那,要是把成千上万台机子连在一起组成一个大池子才能干活。以前因为技术标准不行,把各种不同的东西连在一起太麻烦、也太慢了。现在这套新标准出来了,搞集群就简单了。 这笔大单对产业链也有大影响。先不说能帮着摊平研发成本的风险,还能逼着软件系统跟着变。大厂用了这些硬件后,他们的软件栈、编程模型就成了事实上的规矩。 从做生意的角度看,签个长期协议是为了锁住货源、把市场风险给挡住。在技术日新月异的当下,有个靠谱且看着长远的供货保障比图便宜重要多了。这说明企业把计算能力当战略资产了。 这次合作就说明了一个道理:AI的基础设施正在发生巨变。这一仗不光是比晶体管跑得有多快,而是看谁能把系统架构、软件生态还有供应链这几个盘子转起来。 以后的技术发展会更聚焦在具体的工作负载上搞全栈优化了。大家比拼的不是谁家有个超强的芯片玩单机游戏,而是看谁能把硬件、软件和服务搭成一个完整的计算平台。