国产GPU厂商云天励飞的陈宁是这家初创公司的CEO,他在一次摩根士丹利的会议上放了个狠话,说要把未来五年的成本降低100万倍,到了2030年把一百亿Token的费用压缩到1分钱。之所以敢这么说,主要是因为今年年初他们推了条新路线图,要弄出一种叫GPNPU的芯片,名字听着像是GPU和NPU加一块儿来的。这玩意儿兼容性很强,能把CUDA代码直接跑在国产芯片上,开发者不用改一行代码就能把GPU给换掉。 具体怎么落地呢?他们设计了个prefill和decode分开算的架构,P芯片专门搞计算密集的活,D芯片负责把内存塞得满满的,这样算出来的推理效率和性价比都很高。这种芯片还会组成多个协同作战的超节点系统。按照规划,2026年要拿出第一代超节点P芯片,想把算力打到NVIDIA Hopper那个级别。等到2027年推出第一代超节点D芯片的时候,主攻的是超低时延推理,用来对标NVIDIA的Blackwell架构。等到2028年推出第二代超节点D芯片的时候,目标就是打NVIDIA的Rubin芯片了,争取能做到毫秒级别的推理时延。 最近两个月国内的AI模型调用量猛涨,甚至把谷歌、OpenAI还有Anthropic都给比下去了。主要原因是国外的Koken费用太贵了,但咱们这边的虽然便宜不少还是不够亲民。要想彻底解决这个问题,还得大幅降低成本才行。之所以会出现这种局面,是因为今年开年爆火的那个叫OpenClaw的AI太好用了,大家都喊它小龙虾。这个智能体能够7x24小时连轴转当打工人,玩法多得很,但问题是它太费Token了,好多人都养不起。 云天励飞觉得未来五年全球的AI竞争重心要变了,以前拼谁更聪明现在要拼谁能让应用落地多。落地的最大拦路虎就是成本太高,而Token费用就是这种智能体能不能真正用起来的关键难点。除了云天励飞之外,NVIDIA那边也在琢磨怎么对付这股算力消耗的热潮。他们的CEO黄仁勋在那次摩根士丹利会议上提到了Agentic AI这个概念转折点,并且把OpenClaw评价为“当代最重磅的软件发布”。 黄仁勋说OpenClaw的普及速度太快了,短短三周就把Linux过去三十年的下载量都给打破了。他觉得AI生态就像是个五层蛋糕,而应用程序层就是现在产出最高、最赚钱的地方。OpenClaw之所以这么火,就是因为它让全世界看到了AI能深入到每个人都用得着的场景里去。当这些AI代理开始干大规模的网络搜索、画画或者做数据分析时,全球的Token消耗量一下子就飙高了1000倍。 这种突然冒出来的计算需求把硬件市场搞得很紧张,哪怕你拼命堆机器也不够用。因为只要Agentic AI继续渗透进人类工作当中,算力就会长期处在紧缺状态。相比起以前Hopper和Blackwell那种主要是为训练准备的架构,下一代的Vera Rubin会专门针对智能体AI的痛点来优化。它会加大板载显存的容量并且引入ICMS等平台来解决长上下文处理这种老大难问题。