全球AI产业正进入关键阶段,推理性能已成为衡量芯片竞争力的核心指标。根据最新发布的SemiAnalysis InferenceMAX基准测试分析,在Deepseek-R1 0528混合专家模型的推理场景中,英伟达GB200 NVL72机架系统表现突出:性能达到AMD Instinct MI355X的28倍,每token相对成本仅为对手的十五分之一。此差距显示,两家芯片巨头在AI推理领域的技术距离正在拉大。混合专家模型是当代大规模语言模型的重要架构创新。与传统模型每次任务都调用全部参数不同,混合专家模型采用“按需激活”策略,根据输入问题类型只调用有关专家模块处理,从而提升计算效率。但在大规模扩展时,这种架构也更容易遇到瓶颈:节点间全对全通信带来的延迟与带宽压力,会直接限制系统整体性能。英伟达为此采取“协同设计”思路。GB200 NVL72通过紧密互联72颗高性能芯片,并配备30TB高速共享内存,从硬件层面提升全对全通信效率,降低数据传输延迟。测试数据显示,该系统每GPU吞吐量达到75 tokens/秒,在相近集群配置下明显领先竞争对手。性能优势也带来成本优势。结合云计算定价数据,GB200 NVL72机架的总体拥有成本更低,同时可提供更高交互速率,对超大规模云服务厂商更具吸引力。AMD并非没有优势。MI355X凭借高容量HBM3e内存设计,在稠密模型推理环境中仍具竞争力。稠密模型不同于混合专家模型,每次推理都需激活全部参数,对内存容量与带宽的需求更高,因此AMD在这一细分场景的产品设计仍有针对性优势。但随着混合专家模型在产业端加速落地,这一优势的市场空间正在收窄。当前AMD面临的关键问题,是缺乏新一代机架级解决方案来对冲英伟达的系统优势。在推理性能与成本效率的双重压力下,其市场位置将受到继续检验。业界预计,随着AMD Helios平台与英伟达Vera Rubin平台陆续推出,双方在机架级扩展方案上的竞争将继续升温,而结果将影响全球AI基础设施的建设路径与产业格局。从产业发展角度看,英伟达在推理领域的领先,来自芯片架构、互联技术与软件生态的长期积累。GB200的优势不仅体现在单芯片性能提升,更在于通过系统级优化实现整体效能跃升。“系统级能力”正在成为高端芯片竞争的主战场。
这场算力竞赛背后,是全球数字化进程对高效基础设施的现实需求;随着技术创新从单点提升转向系统级优化,半导体行业的竞争格局正在被重新塑造。未来的胜负不仅取决于制程与算力的参数对比,更取决于企业能否构建完整的计算生态并落地执行。这场围绕未来计算主导权的竞争,可能将继续改写人工智能时代的基础设施标准。