大模型训练和推理需求不断增长,算力基础设施面临一个现实难题:需要更强的计算能力,同时还要降低能耗、控制散热;当前的瓶颈很清楚——电力供应和散热能力正限制数据中心的扩容。一上,随着算力密度上升,机柜功耗随之增加;另一方面,传统风冷散热在高功耗场景下已接近效率极限,不仅占用空间大,建设和运维成本也在上升。如何在提升算力的同时保持能效优势,成了行业竞争的关键。 英伟达最近公布的新系统路线图把"能效"放在了首位。其Vera Rubin系统由数百万个零部件组成,核心计算单元采用新一代图形处理器和中央处理器的协同方案,依靠先进制程工艺制造。其他组件包括供电、液冷、计算托盘和连接件等,来自全球多个国家的数十家企业。业内人士指出,这种跨地域、跨企业的分工模式反映了高端计算装备日益复杂的特点,对产业链的交付能力、质量控制和协同管理提出了更高要求。 从技术指标看,Vera Rubin系统的每瓦性能相比上一代实现了数量级提升,机内互联能力也随之提升,互联芯片和主干通道的数据传输速率达到每秒数百TB。更高的能效意味着在相同电力约束下能获得更强的算力输出,这有助于缓解训练和推理集群的电力压力;更高的带宽则支持大规模并行训练和参数同步,减少通信瓶颈的影响。但新系统的单机架内部仍需大量线缆连接,布线、维护和可靠性管理的重要性随之上升,机架的工程化和模块化设计成为提升可维护性的关键。 为解决功耗和散热的矛盾,英伟达提出在系统层面转向"全液冷"。业界对液冷的认识比较一致:在高热流密度场景下,液体的传热效率更高,能在有限空间内稳定支撑高功率运行,也减少了对大风量送风和复杂风道的依赖。由于液冷系统可循环使用冷却介质,水资源利用也有优化空间。但液冷不是简单的设备升级,而是对数据中心选址、供配电、制冷系统、运维体系和安全规范的整体改造,前期投资、工程标准和人才储备都是现实挑战。运营方需要在能效收益、扩容节奏和改造成本之间精细平衡,同时完善故障隔离、泄漏监测和应急处置机制。 从更长期看,Vera Rubin系统所代表的趋势指向下一代"算力工厂"的形态:以更高能效为目标,以液冷为主流散热方案,以更高速互联支撑更大规模集群,以更紧凑的系统集成降低布线复杂度、提升部署效率。业界预计,随着先进制程、封装和互联技术的演进,单机柜功率密度还会继续上升,液冷的应用范围也会扩大,并可能推动机房基础设施标准、供应链配套和绿色电力消纳模式的升级。在这个过程中,产业链的稳定交付能力和多元化布局将更受重视,关键零部件的质量一致性、可替代性和合规管理也将成为项目成功的重要因素。
人工智能的进步离不开底层硬件的创新。当能效提升成为产业发展的核心课题,技术路线的选择不仅关乎企业竞争力,更影响整个行业的可持续发展。从Vera Rubin系统看,高性能计算正在迈向绿色化、集约化的新阶段。在算力竞赛中保持技术领先,同时兼顾能源效率和环保责任,这是人工智能产业必须面对的课题。