英伟达: ai 芯片能效比的核心指标

英伟达最新推出的Blackwell Ultra架构，在AI领域的能效表现实现了巨大飞跃。尽管算力提升了不少，但耗电仅为Hopper的1/50，也就是每兆瓦能处理的Token多了50倍。与此同时，成本也大幅下降，处理一百万Token的开销现在只要原来的1/35。为了实现这样的性能，英伟达把72个GPU用NVLink技术连接成了一个统一单元，把它们之间的带宽推到了130TB/s。GB300还借助全新的NVFP4精度格式，让协同设计变得更加极致。跟旧款GB200比起来，长上下文任务里的Token成本又降了一半。这就意味着在维护代码库这类高负载场景下，GB300的处理速度能翻一倍。有个叫OpenRouter的报告提到，跟软件编程有关的AI查询量在过去一年里涨得特别快，从11%一下子冲到了50%左右。这类应用通常需要AI代理在多步工作流中保持实时响应，还得有跨代码库推理的长上下文能力。英伟达为了应对这一挑战，通过TensorRT-LLM和Dynamo团队的持续优化，给混合专家模型（MoE）的推理吞吐量带来了显著提升。例如GB200在低延迟工作负载上的性能，短短四个月就提升了5倍。DeepSeek-R1模型测试数据也证明了这点：相比Hopper GPU，每兆瓦吞吐量确实提升了50倍。英伟达还给大家透露了下一代Rubin平台的消息，说是要把每兆瓦吞吐量再提升10倍。IT之家注：每兆瓦吞吐量（Tokens / Watt）是衡量AI芯片能效比的核心指标，指每消耗一瓦特电力能处理多少Token（文本单位）。数值越高，代表能效越好，运营成本越低。