国产gpu 厂商云天励飞的陈宁说要把未来五年的成本降低100万倍，到了2030年把一百亿token

国产GPU厂商云天励飞的陈宁是这家初创公司的CEO，他在一次摩根士丹利的会议上放了个狠话，说要把未来五年的成本降低100万倍，到了2030年把一百亿Token的费用压缩到1分钱。之所以敢这么说，主要是因为今年年初他们推了条新路线图，要弄出一种叫GPNPU的芯片，名字听着像是GPU和NPU加一块儿来的。这玩意儿兼容性很强，能把CUDA代码直接跑在国产芯片上，开发者不用改一行代码就能把GPU给换掉。具体怎么落地呢？他们设计了个prefill和decode分开算的架构，P芯片专门搞计算密集的活，D芯片负责把内存塞得满满的，这样算出来的推理效率和性价比都很高。这种芯片还会组成多个协同作战的超节点系统。按照规划，2026年要拿出第一代超节点P芯片，想把算力打到NVIDIA Hopper那个级别。等到2027年推出第一代超节点D芯片的时候，主攻的是超低时延推理，用来对标NVIDIA的Blackwell架构。等到2028年推出第二代超节点D芯片的时候，目标就是打NVIDIA的Rubin芯片了，争取能做到毫秒级别的推理时延。最近两个月国内的AI模型调用量猛涨，甚至把谷歌、OpenAI还有Anthropic都给比下去了。主要原因是国外的Koken费用太贵了，但咱们这边的虽然便宜不少还是不够亲民。要想彻底解决这个问题，还得大幅降低成本才行。之所以会出现这种局面，是因为今年开年爆火的那个叫OpenClaw的AI太好用了，大家都喊它小龙虾。这个智能体能够7x24小时连轴转当打工人，玩法多得很，但问题是它太费Token了，好多人都养不起。云天励飞觉得未来五年全球的AI竞争重心要变了，以前拼谁更聪明现在要拼谁能让应用落地多。落地的最大拦路虎就是成本太高，而Token费用就是这种智能体能不能真正用起来的关键难点。除了云天励飞之外，NVIDIA那边也在琢磨怎么对付这股算力消耗的热潮。他们的CEO黄仁勋在那次摩根士丹利会议上提到了Agentic AI这个概念转折点，并且把OpenClaw评价为“当代最重磅的软件发布”。黄仁勋说OpenClaw的普及速度太快了，短短三周就把Linux过去三十年的下载量都给打破了。他觉得AI生态就像是个五层蛋糕，而应用程序层就是现在产出最高、最赚钱的地方。OpenClaw之所以这么火，就是因为它让全世界看到了AI能深入到每个人都用得着的场景里去。当这些AI代理开始干大规模的网络搜索、画画或者做数据分析时，全球的Token消耗量一下子就飙高了1000倍。这种突然冒出来的计算需求把硬件市场搞得很紧张，哪怕你拼命堆机器也不够用。因为只要Agentic AI继续渗透进人类工作当中，算力就会长期处在紧缺状态。相比起以前Hopper和Blackwell那种主要是为训练准备的架构，下一代的Vera Rubin会专门针对智能体AI的痛点来优化。它会加大板载显存的容量并且引入ICMS等平台来解决长上下文处理这种老大难问题。