niv-ai：让gpu 电能利用效率提升

今天，Niv-AI正式曝光了自己的身份，它的目标是把GPU的电能利用效率提升上来。电力一直是人工智能运转的关键原料，可现在的新技术已经超出了数据中心运营商们掌控电网的能力范围，逼得他们不得不把性能调低至少30%。英伟达CEO黄仁勋在GTC大会上吐槽道：“这些AI工厂太浪费电了。”公司还直言不讳地指出：“每浪费一瓦电都是在赔钱。”如今，这家来自特拉维夫的初创公司终于跳出了隐形模式，它拿了1200万美元的种子轮融资。Tom和Edward这两位创始人想通过精准的GPU功耗测量以及更高效的管理工具来解决这个大难题。他们的公司拿到了Glilot Capital、Grove Ventures、Arc VC、Encoded VC、Leap Forward还有Aurora Capital Partners的支持。至于估值嘛，Niv-AI还没透露具体数字。大家都知道前沿的实验室里经常要同时运行好几千个GPU来训练和运行高级模型。问题就出在这儿：当处理器在忙着算题和跟其他GPU聊天的时候，就会出现那种频繁的、短时间内的电力大飙升。这种突如其来的高峰让数据中心很难从电网里拿电。为了防着突然断电，运营商们要么得花钱买临时的储能系统来应对这些突发情况，要么只能直接限制GPU的使用。不管选哪种办法，都意味着他们砸进去买昂贵芯片的钱打水漂了。“我们不能再这么建数据中心了。”Grove Ventures的合伙人Lior Handlesman——他也是Niv董事会成员——这么说。 Niv的计划第一步就是摸清底细。他们正忙着给机架装上传感器，能在极短的时间内测出自己的GPU和合作设计的GPU到底消耗了多少电。目标很明确：搞清楚不同深度学习任务的具体耗电规律，然后开发出缓解技术。有了这些数据，数据中心就能把藏在角落里的那些空闲算力给释放出来。工程师们自然也希望能把这些数据拿来训练一个AI模型，让它变成一个能帮数据中心工程师预测和同步整个负载的“副驾驶”。 Niv预计在接下来的六到八个月里能在美国的几个数据中心建起一套运营系统。这主意真不错，毕竟那些想盖新数据中心的超大规模云服务商正头疼土地使用和供应链的麻烦呢。Timor把自家产品看成是数据中心和电网之间缺少的那层“智能层”。“电网其实挺怕在某个时间点上被我们吃掉太多电。”Timor跟TechCrunch说了实话。“我们研究的其实是个两头较劲的事儿。”他接着解释，“一边是想帮着数据中心多用好一点GPU，希望能更好地利用他们已经交了钱的电；另一边呢，你也得在数据中心和电网之间弄出更负责任的耗电状况。” Q&A Q1：Niv-AI是啥公司？它主要干嘛的？ A：Niv-AI是家在特拉维夫的初创公司，专门管数据中心GPU的耗电量的事。他们做了新传感器去精确测GPU费了多少电，还给人提供管理工具来提升效率，这就解决了数据中心因为突然耗电激增而被迫降30%性能的麻烦。 Q2：为啥数据中心要限制GPU的性能呢？ A：因为GPU在做数学题和跟别的GPU聊天的时候会突然出现毫秒级的大冲电。这就搞得电网不好管理供电了。为了不缺电，运营商要么掏钱买储能设备应付这些突发冲电，要么干脆不让GPU干活儿。这两种情况都会让他们投入昂贵芯片的钱没了回报。 Q3：Niv-AI的解决办法是怎么工作的？ A：Niv-AI先装上机架级的传感器去检测GPU的耗电量，然后搞清楚不同深度学习任务的耗电模式。接着再拿这些数据去训练个AI模型来预测和同步整个数据中心的负载，最后给工程师们提供个智能管理的工具。