为什么AIDC比IDC耗电这么高?拿CPU和GPU的能耗对比一下。CPU主要用来处理复杂逻辑任务,功率比较稳定,通常在200W到400W之间。可是GPU或者ASIC这类专门用来跑AI的芯片,单颗功耗已经到了700W到1000W,甚至更高。像Blackwell这样的高端芯片在工作时核心数非常多,每个核心都在高频运行。给它们供电的成本自然就上去了。传统的IDC每个机柜功率通常只有5kW到15kW,但AIDC用了NVLink这种高速互联技术,为了减少延迟,服务器堆得更紧密。现在的AIDC机柜功率通常在40kW到100kW,甚至更高。同样面积的机房,AIDC对电的需求量是IDC的5到10倍。 散热的方式也不一样。传统IDC一般用风冷就行,但AIDC的芯片产生的热量太集中了,风冷根本应付不过来。所以现在得用水冷系统,比如冷板式或者浸没式液冷来压住温度。尽管水冷效率高一点,但要驱动这些庞大的系统还是要费不少电。 任务模式也不一样。传统服务器处理网页浏览或者邮件这类任务时负载是波动的,经常有空闲时间。可是做AI训练时,比如训练一个大型语言模型(LLM),数万颗GPU就会进入100%满载状态,这种状态会一直持续数周甚至数月。这种“全时高能耗”的模式和传统业务完全不一样。 最后还要考虑存储和网络部分的需求。AI不仅需要大量计算资源还需要高速数据吞吐。为了跟GPU的速度匹配,AIDC用了大量HBM(高带宽显存)。HBM虽然效率高但规模一大功耗也不小。另外维持数万颗芯片之间“秒速通信”的光模块和交换机也是发热大户。 再加上NVL和NVLink这样的技术支持更是火上浇油。