为什么aidc比idc 耗电这么高？

为什么AIDC比IDC耗电这么高？拿CPU和GPU的能耗对比一下。CPU主要用来处理复杂逻辑任务，功率比较稳定，通常在200W到400W之间。可是GPU或者ASIC这类专门用来跑AI的芯片，单颗功耗已经到了700W到1000W，甚至更高。像Blackwell这样的高端芯片在工作时核心数非常多，每个核心都在高频运行。给它们供电的成本自然就上去了。传统的IDC每个机柜功率通常只有5kW到15kW，但AIDC用了NVLink这种高速互联技术，为了减少延迟，服务器堆得更紧密。现在的AIDC机柜功率通常在40kW到100kW，甚至更高。同样面积的机房，AIDC对电的需求量是IDC的5到10倍。散热的方式也不一样。传统IDC一般用风冷就行，但AIDC的芯片产生的热量太集中了，风冷根本应付不过来。所以现在得用水冷系统，比如冷板式或者浸没式液冷来压住温度。尽管水冷效率高一点，但要驱动这些庞大的系统还是要费不少电。任务模式也不一样。传统服务器处理网页浏览或者邮件这类任务时负载是波动的，经常有空闲时间。可是做AI训练时，比如训练一个大型语言模型（LLM），数万颗GPU就会进入100%满载状态，这种状态会一直持续数周甚至数月。这种“全时高能耗”的模式和传统业务完全不一样。最后还要考虑存储和网络部分的需求。AI不仅需要大量计算资源还需要高速数据吞吐。为了跟GPU的速度匹配，AIDC用了大量HBM（高带宽显存）。HBM虽然效率高但规模一大功耗也不小。另外维持数万颗芯片之间“秒速通信”的光模块和交换机也是发热大户。再加上NVL和NVLink这样的技术支持更是火上浇油。