sambanova 放大招:10 万亿的ai 模型来了

今天SambaNova又放出了大招,他们新推出的SN50芯片可是专门冲着10万亿参数的AI模型来的。这家公司号称SN50的运算速度能比英伟达的Blackwell快整整五倍,处理数据的吞吐量更是高三倍,完全能给那种超大参数的智能体AI模型供上电。除此之外,他们还宣布给日本软银送货上门,并且跟英特尔牵上了手,顺带把之前的3.5亿美元融资轮也拿下了。 这事儿得从数据处理需求激增说起,这可是推动AI繁荣的重要原因。SambaNova为了应对这些需求,特意搞了个可重构数据单元(RDU)的架构,这玩意儿能让数据按照计算图的路径一直走到底,彻底把CPU和GPU在指令集架构(ISA)里那种低效搬砖的毛病给治了。 SN50的硬件配置跟SN40差不多,采用了分层式的内存结构。里面既有速度超快的64GB高带宽内存(HBM),还有灵活的432MB静态随机存取存储器(SRAM),外面再堆上256GB到2TB的DDR5。SambaNova觉得这种设计就能把最大的AI模型都给装进去,哪怕是那种大到10万亿参数的家伙。他们说,模型要是驻留在HBM和SRAM里,只需要几毫秒就能互相换数据,这对于那种智能体工作负载来说太重要了。 跟SN40比起来,SN50的每个加速器算力翻了五倍,网络带宽更是涨了四倍。自己内部的测试结果显示,它在跑Meta的Llama 3.3 70B这种模型时,速度比英伟达的Blackwell B200 GPU快了五倍,吞吐量更是超过了三倍。 为了方便客户使用,SambaNova把芯片预先装进了叫SambaRacks的机架里卖。一个机架最多能塞进去16个独立的SN50芯片。如果还嫌不够用,他们还支持把这些机架扩展成更大的集群,最多能通过每秒多T字节的带宽连接起256个SN50。每个机架平均要消耗20kW的电力,好在这也够了,只需要靠风冷就能搞定。 虽然现在市场上都是CPU和GPU的天下,但SambaNova这次还是把目光盯死在AI推理这一块上。他们的技术能把输入的令牌(Token)直接缓存在内存里,这就大大缩短了相对于主流GPU架构的首令牌时间(TTFT)。而且他们还能在内存里同时装好几个AI模型,在模型之间切换的速度也比英伟达的GPU快多了。 日本软银这回可是头一个吃螃蟹的客户,他们打算在自己下一代的AI数据中心里用上SN50芯片。不光是软银这家大公司看上了他们,英特尔也成了新的合作伙伴。据说英特尔在一月份的时候还想花16亿美元把SambaNova给收了,不过现在看来双方还是更愿意继续合作。这一轮英特尔也投了钱,SambaNova手里握着这3.5亿美元的资金,接下来主要是用来扩大生产制造和云服务能力。 最后SambaNova联合创始人兼首席执行官Rodrigo Liang说,“AI的比拼再也不是看谁堆的模型最大了。”他觉得现在的关键是谁能打造出那种能秒回问题、从不卡顿、而且成本低得让AI从实验室变成最赚钱的云端引擎。有了SN50加上跟英特尔的深度合作,他们有信心把整个数据中心都点亮成那个样子。