sambanova 放大招：10 万亿的ai 模型来了

今天SambaNova又放出了大招，他们新推出的SN50芯片可是专门冲着10万亿参数的AI模型来的。这家公司号称SN50的运算速度能比英伟达的Blackwell快整整五倍，处理数据的吞吐量更是高三倍，完全能给那种超大参数的智能体AI模型供上电。除此之外，他们还宣布给日本软银送货上门，并且跟英特尔牵上了手，顺带把之前的3.5亿美元融资轮也拿下了。这事儿得从数据处理需求激增说起，这可是推动AI繁荣的重要原因。SambaNova为了应对这些需求，特意搞了个可重构数据单元（RDU）的架构，这玩意儿能让数据按照计算图的路径一直走到底，彻底把CPU和GPU在指令集架构（ISA）里那种低效搬砖的毛病给治了。 SN50的硬件配置跟SN40差不多，采用了分层式的内存结构。里面既有速度超快的64GB高带宽内存（HBM），还有灵活的432MB静态随机存取存储器（SRAM），外面再堆上256GB到2TB的DDR5。SambaNova觉得这种设计就能把最大的AI模型都给装进去，哪怕是那种大到10万亿参数的家伙。他们说，模型要是驻留在HBM和SRAM里，只需要几毫秒就能互相换数据，这对于那种智能体工作负载来说太重要了。跟SN40比起来，SN50的每个加速器算力翻了五倍，网络带宽更是涨了四倍。自己内部的测试结果显示，它在跑Meta的Llama 3.3 70B这种模型时，速度比英伟达的Blackwell B200 GPU快了五倍，吞吐量更是超过了三倍。为了方便客户使用，SambaNova把芯片预先装进了叫SambaRacks的机架里卖。一个机架最多能塞进去16个独立的SN50芯片。如果还嫌不够用，他们还支持把这些机架扩展成更大的集群，最多能通过每秒多T字节的带宽连接起256个SN50。每个机架平均要消耗20kW的电力，好在这也够了，只需要靠风冷就能搞定。虽然现在市场上都是CPU和GPU的天下，但SambaNova这次还是把目光盯死在AI推理这一块上。他们的技术能把输入的令牌（Token）直接缓存在内存里，这就大大缩短了相对于主流GPU架构的首令牌时间（TTFT）。而且他们还能在内存里同时装好几个AI模型，在模型之间切换的速度也比英伟达的GPU快多了。日本软银这回可是头一个吃螃蟹的客户，他们打算在自己下一代的AI数据中心里用上SN50芯片。不光是软银这家大公司看上了他们，英特尔也成了新的合作伙伴。据说英特尔在一月份的时候还想花16亿美元把SambaNova给收了，不过现在看来双方还是更愿意继续合作。这一轮英特尔也投了钱，SambaNova手里握着这3.5亿美元的资金，接下来主要是用来扩大生产制造和云服务能力。最后SambaNova联合创始人兼首席执行官Rodrigo Liang说，“AI的比拼再也不是看谁堆的模型最大了。”他觉得现在的关键是谁能打造出那种能秒回问题、从不卡顿、而且成本低得让AI从实验室变成最赚钱的云端引擎。有了SN50加上跟英特尔的深度合作，他们有信心把整个数据中心都点亮成那个样子。