全球科技巨头联手推进AI基础设施革新单token成本显著下降

问题——从“会训练”到“会推理”，算力与成本成为AI规模化落地关键掣肘；随着大模型应用从训练阶段转向推理与“智能体”应用阶段，行业计算需求结构发生变化：推理调用更高频、更分散，且对响应速度、稳定性与全生命周期成本更敏感。尤其企业级生产环境中，推理成本、首token时间、供电与散热能力、数据治理与合规边界，成为制约AI从试点走向规模化部署的核心因素。原因——推理工作负载增长与基础设施迭代叠加，推动“工厂化”交付成为趋势。在大会主题演讲中，英伟达上提出“智能token”作为关键产出、AI工厂作为基础设施的观点，指向一个现实逻辑：当智能体具备推理、规划与行动能力后，推理负载可能呈指数级增长，单次调用的效率与成本将被放大到产业链的每一个环节。此外，数据中心能耗与散热约束日益突出，传统建设模式交付周期、能效水平、运维复杂度等面临挑战，促使厂商从“卖设备”向“交付整厂能力、全栈平台与持续运维”升级。影响——合作从产品协同延伸至基础设施级能力，意在抢占下一轮AI基建窗口。根据发布信息，联想与英伟达此次推出的新一代混合式AI方案覆盖推理平台、云端超级工厂以及行业智能体解决方案等环节。其中，AI云超级工厂成为重点：联想作为Vera Rubin NVL72的全球首发合作伙伴，计划交付全液冷、机架级AI系统，并提出相较前代实现最高10倍吞吐提升、单token成本降至十分之一的指标。对市场而言，此表述释放两层信号：其一，厂商竞赛正从“算力峰值”转向“推理效率与单位成本”，并以更接近业务指标的方式衡量基础设施价值；其二，AI基础设施正呈现平台化、工厂化、模块化交付特征，供应链、制造与本地交付能力将成为竞争壁垒之一。对策——以全栈平台与工程化能力降低部署门槛，推动AI从实验室走向生产线。具体方案层面，新一代Lenovo AI推理平台引入NVIDIA Dynamo与NVIDIA NIM等软件能力，意在提升推理部署效率与应用落地速度；基于NVIDIA Blueprints和软件构建的行业专用智能体解决方案，则指向“可复用、可组合、可行业化”的应用交付路径。联想上同时披露将推出HGX Rubin NVL8系统，并与合作伙伴Nscale协同，面向大规模推理与智能体负载提供支撑。结合当前企业上云与本地部署并存的现实，混合式架构可在数据合规、时延要求、成本控制之间寻求平衡，也更契合主权AI云等对本地化交付、数据边界与持续运维的要求。前景——推理时代“降本增效”与“绿色算力”将成为主线，产业竞争将更看重系统工程能力。业内普遍认为，未来一段时期，大模型应用将加速向行业纵深延伸，智能体在客服、研发、运维、供应链、办公协同等场景的渗透将带来持续推理需求。谁能在保证性能的同时实现可预测的成本曲线、稳定的交付周期与更高能效，谁就更可能在AI基础设施新周期中占据优势。液冷、模块化机架、软件栈优化与本地化交付等工程能力，将与芯片、算法共同构成竞争力。与此同时，伴随各国对数据安全与关键算力资源的重视上升，主权AI云建设需求或将持续增长，推动更强调合规、可控与韧性的基础设施方案落地。

AI基础设施正进入以成本、规模和治理为核心的新阶段；能够安全合规前提下提升推理效率、降低成本、完善交付体系的企业，将更有望推动AI实现真正的产业应用。联想与英伟达在推理和AI工厂上的合作升级，标志着产业正从概念探索转向工程实践，为下一阶段的高质量发展提供了重要参考。

全球科技巨头联手推进AI基础设施革新 单token成本显著下降

全球科技巨头联手推进AI基础设施革新单token成本显著下降