全球科技巨头联手推进AI基础设施革新 单token成本显著下降

问题——从“会训练”到“会推理”,算力与成本成为AI规模化落地关键掣肘;随着大模型应用从训练阶段转向推理与“智能体”应用阶段,行业计算需求结构发生变化:推理调用更高频、更分散,且对响应速度、稳定性与全生命周期成本更敏感。尤其企业级生产环境中,推理成本、首token时间、供电与散热能力、数据治理与合规边界,成为制约AI从试点走向规模化部署的核心因素。 原因——推理工作负载增长与基础设施迭代叠加,推动“工厂化”交付成为趋势。在大会主题演讲中,英伟达上提出“智能token”作为关键产出、AI工厂作为基础设施的观点,指向一个现实逻辑:当智能体具备推理、规划与行动能力后,推理负载可能呈指数级增长,单次调用的效率与成本将被放大到产业链的每一个环节。此外,数据中心能耗与散热约束日益突出,传统建设模式交付周期、能效水平、运维复杂度等面临挑战,促使厂商从“卖设备”向“交付整厂能力、全栈平台与持续运维”升级。 影响——合作从产品协同延伸至基础设施级能力,意在抢占下一轮AI基建窗口。根据发布信息,联想与英伟达此次推出的新一代混合式AI方案覆盖推理平台、云端超级工厂以及行业智能体解决方案等环节。其中,AI云超级工厂成为重点:联想作为Vera Rubin NVL72的全球首发合作伙伴,计划交付全液冷、机架级AI系统,并提出相较前代实现最高10倍吞吐提升、单token成本降至十分之一的指标。对市场而言,此表述释放两层信号:其一,厂商竞赛正从“算力峰值”转向“推理效率与单位成本”,并以更接近业务指标的方式衡量基础设施价值;其二,AI基础设施正呈现平台化、工厂化、模块化交付特征,供应链、制造与本地交付能力将成为竞争壁垒之一。 对策——以全栈平台与工程化能力降低部署门槛,推动AI从实验室走向生产线。具体方案层面,新一代Lenovo AI推理平台引入NVIDIA Dynamo与NVIDIA NIM等软件能力,意在提升推理部署效率与应用落地速度;基于NVIDIA Blueprints和软件构建的行业专用智能体解决方案,则指向“可复用、可组合、可行业化”的应用交付路径。联想上同时披露将推出HGX Rubin NVL8系统,并与合作伙伴Nscale协同,面向大规模推理与智能体负载提供支撑。结合当前企业上云与本地部署并存的现实,混合式架构可在数据合规、时延要求、成本控制之间寻求平衡,也更契合主权AI云等对本地化交付、数据边界与持续运维的要求。 前景——推理时代“降本增效”与“绿色算力”将成为主线,产业竞争将更看重系统工程能力。业内普遍认为,未来一段时期,大模型应用将加速向行业纵深延伸,智能体在客服、研发、运维、供应链、办公协同等场景的渗透将带来持续推理需求。谁能在保证性能的同时实现可预测的成本曲线、稳定的交付周期与更高能效,谁就更可能在AI基础设施新周期中占据优势。液冷、模块化机架、软件栈优化与本地化交付等工程能力,将与芯片、算法共同构成竞争力。与此同时,伴随各国对数据安全与关键算力资源的重视上升,主权AI云建设需求或将持续增长,推动更强调合规、可控与韧性的基础设施方案落地。

AI基础设施正进入以成本、规模和治理为核心的新阶段;能够安全合规前提下提升推理效率、降低成本、完善交付体系的企业,将更有望推动AI实现真正的产业应用。联想与英伟达在推理和AI工厂上的合作升级,标志着产业正从概念探索转向工程实践,为下一阶段的高质量发展提供了重要参考。