10 万亿的人工智能芯片，能让英特尔跑出云端最赚钱的引擎

最近这几年，人工智能这块确实挺火，数据量那是一个接一个地爆炸，弄得传统的硬件根本没法应对。咱们就拿SambaNova来说吧，他们就是趁着这股热潮搞了个名叫SN50的新芯片，说白了就是为了驯服那些动辄有10万亿参数的大家伙。这芯片速度快得惊人，SambaNova拍着胸脯保证，能把英伟达的Blackwell给甩在身后整整五倍。这不仅意味着运算更快，吞吐量也比后者高三倍。要知道，一旦你给它提供足够的电力，这货就能把那些超过10万亿参数的智能体模型稳稳地支撑起来。除了性能这块让人眼馋，SambaNova在圈里也是相当活跃。日本软银决定做他们的第一个吃螃蟹的人，打算在自家的新数据中心里大规模用上SN50。另一边，英特尔也没闲着，之前不是传出要花16亿美元把他们收编吗？结果这波操作没成，反倒是英特尔投了3.5亿美元进SambaNova的新一轮融资。这钱拿下来以后，他们打算把产能和云服务这两块蛋糕做得更大。架构方面，SambaNova也是动了不少脑筋。他们搞了个叫RDU的玩意，说白了就是让数据按照自己的路子走，不用像传统CPU和GPU那样被ISA那个指令集死死卡住脖子。具体到SN50上，内存这块就特别讲究。它把64GB的HBM、432MB的SRAM和从256GB到2TB不等的DDR5混在一起用。这种设计能让它一口气托管超大模型，哪怕是那个号称10万亿参数的大宝贝也不在话下。为了让这些模型跑得更快更流畅，SambaNova把驻留在HBM和SRAM里的家伙们安排得明明白白。大家都知道智能体干活的时候老要在好几个模型之间来回切换对吧？这时候数据交换的速度就得跟上才行。数据换得快，干活就利索。公司的博客里还专门提了一嘴说：“我们的每个加速器都比老大哥SN40强五倍，网速也快了四倍。” 至于实际测试结果更是让人信服。他们内部拿自己的东西跟英伟达Blackwell B200比了一比，结果发现跑那种像Meta的Llama 3.3 70B一样的智能体推理工作时，速度能翻五倍，吞吐量更是高出超过三倍。你可能会想这么猛的芯片得怎么装？别急，SambaNova是直接把SN50预先放在叫SambaRacks的机架里卖的。一个架子最多能塞16个独立的SN50进去。如果觉得不够用？没关系！他们支持扩展！只要带宽给力（每秒钟好几T呢），最多能把256个SN50连在一起做成一个超级大集群。再说个让人省心的点：一个SambaRack平均也就用20千瓦的电。这就省了液冷那套复杂的家伙事了，直接拿风冷就把它给对付了。虽然现在的硬件拼的是大模型堆砌，但SambaNova好像不怎么感冒。他们心里有杆秤：“AI这玩意儿已经不是比谁堆的块头更大了。”人家更看重的是响应速度得快、不能卡顿、而且成本还得低到能让AI从实验室里跑出来变成云端最赚钱的引擎。这正是他们联合创始人兼CEO Rodrigo Liang想跟大家聊的：“有了SN50和英特尔这块招牌搭把手，真正的竞争该是看谁能在数据中心里点亮那种能随时回答、从不卡壳、又能把成本降到合理水平的智能体了。”