英伟达最新推出的Blackwell Ultra架构,在AI领域的能效表现实现了巨大飞跃。尽管算力提升了不少,但耗电仅为Hopper的1/50,也就是每兆瓦能处理的Token多了50倍。与此同时,成本也大幅下降,处理一百万Token的开销现在只要原来的1/35。为了实现这样的性能,英伟达把72个GPU用NVLink技术连接成了一个统一单元,把它们之间的带宽推到了130TB/s。GB300还借助全新的NVFP4精度格式,让协同设计变得更加极致。跟旧款GB200比起来,长上下文任务里的Token成本又降了一半。这就意味着在维护代码库这类高负载场景下,GB300的处理速度能翻一倍。有个叫OpenRouter的报告提到,跟软件编程有关的AI查询量在过去一年里涨得特别快,从11%一下子冲到了50%左右。这类应用通常需要AI代理在多步工作流中保持实时响应,还得有跨代码库推理的长上下文能力。英伟达为了应对这一挑战,通过TensorRT-LLM和Dynamo团队的持续优化,给混合专家模型(MoE)的推理吞吐量带来了显著提升。例如GB200在低延迟工作负载上的性能,短短四个月就提升了5倍。DeepSeek-R1模型测试数据也证明了这点:相比Hopper GPU,每兆瓦吞吐量确实提升了50倍。英伟达还给大家透露了下一代Rubin平台的消息,说是要把每兆瓦吞吐量再提升10倍。IT之家注:每兆瓦吞吐量(Tokens / Watt)是衡量AI芯片能效比的核心指标,指每消耗一瓦特电力能处理多少Token(文本单位)。数值越高,代表能效越好,运营成本越低。