英伟达GB200 NVL72在MoE推理中表现领先机架级算力竞争加剧

全球AI产业正进入关键阶段，推理性能已成为衡量芯片竞争力的核心指标。根据最新发布的SemiAnalysis InferenceMAX基准测试分析，在Deepseek-R1 0528混合专家模型的推理场景中，英伟达GB200 NVL72机架系统表现突出：性能达到AMD Instinct MI355X的28倍，每token相对成本仅为对手的十五分之一。此差距显示，两家芯片巨头在AI推理领域的技术距离正在拉大。混合专家模型是当代大规模语言模型的重要架构创新。与传统模型每次任务都调用全部参数不同，混合专家模型采用“按需激活”策略，根据输入问题类型只调用有关专家模块处理，从而提升计算效率。但在大规模扩展时，这种架构也更容易遇到瓶颈：节点间全对全通信带来的延迟与带宽压力，会直接限制系统整体性能。英伟达为此采取“协同设计”思路。GB200 NVL72通过紧密互联72颗高性能芯片，并配备30TB高速共享内存，从硬件层面提升全对全通信效率，降低数据传输延迟。测试数据显示，该系统每GPU吞吐量达到75 tokens/秒，在相近集群配置下明显领先竞争对手。性能优势也带来成本优势。结合云计算定价数据，GB200 NVL72机架的总体拥有成本更低，同时可提供更高交互速率，对超大规模云服务厂商更具吸引力。AMD并非没有优势。MI355X凭借高容量HBM3e内存设计，在稠密模型推理环境中仍具竞争力。稠密模型不同于混合专家模型，每次推理都需激活全部参数，对内存容量与带宽的需求更高，因此AMD在这一细分场景的产品设计仍有针对性优势。但随着混合专家模型在产业端加速落地，这一优势的市场空间正在收窄。当前AMD面临的关键问题，是缺乏新一代机架级解决方案来对冲英伟达的系统优势。在推理性能与成本效率的双重压力下，其市场位置将受到继续检验。业界预计，随着AMD Helios平台与英伟达Vera Rubin平台陆续推出，双方在机架级扩展方案上的竞争将继续升温，而结果将影响全球AI基础设施的建设路径与产业格局。从产业发展角度看，英伟达在推理领域的领先，来自芯片架构、互联技术与软件生态的长期积累。GB200的优势不仅体现在单芯片性能提升，更在于通过系统级优化实现整体效能跃升。“系统级能力”正在成为高端芯片竞争的主战场。

这场算力竞赛背后，是全球数字化进程对高效基础设施的现实需求；随着技术创新从单点提升转向系统级优化，半导体行业的竞争格局正在被重新塑造。未来的胜负不仅取决于制程与算力的参数对比，更取决于企业能否构建完整的计算生态并落地执行。这场围绕未来计算主导权的竞争，可能将继续改写人工智能时代的基础设施标准。

英伟达GB200 NVL72在MoE推理中表现领先 机架级算力竞争加剧

英伟达GB200 NVL72在MoE推理中表现领先机架级算力竞争加剧