上海人工智能实验室,让国产芯片跑得更快了

最近上海人工智能实验室有个大消息,他们弄出了一种新方法,把各种不同的国产芯片连在了一起,让AI应用跑得更快了。现在大家对智能计算的需求变了,以前训练用的那种超级算力涨得没那么快了,但很多行业需要的那种实时推理算力却像爆炸一样猛增。可是以前的国产算力生态就像孤岛一样,各个厂家的芯片因为没统一标准,很难一起干活,结果就是资源浪费和需求跟不上的矛盾越来越大。这次上海的实验室总算突破了这个难题,搞出了DeepLink这个混合推理框架。这就好比给AI推理搭了一个全明星团队,让擅长进攻的芯片去突破,让会组织的芯片去掌控节奏。 技术团队专门针对AI推理的需求,想了一个叫预填充-解码分离(PD分离)的新架构。在那个有很多张显卡的大集群里测试时,这个方案把第一个字出来的时间缩短了34.5%,整体处理能力提高了32%。这意味着我们跟AI聊天的时候,系统反应速度快了近三分之一,说话也更顺畅了。数据显示,通过精准分工,不同芯片的特长都发挥出来了,整个集群的效率飞升。 支撑这套方案的是三个核心技术部件:DLSolver就像人才测评系统,能精确算出每块芯片有多强;DLRouter像个战术指挥官,实时调整任务怎么跑;DLSlime则搭建了芯片之间的高速通道。这三样东西凑一块儿构成了调度中枢,让这些芯片配合得非常默契。 现在已经适配了昇腾、沐曦等8个主流的国产芯片品牌。平均下来,推理性能都提高了20%以上。也就是说不换硬件的话,咱们能拿到相当于少花20%成本的算力。好几个省的算力中心已经开始用这个技术了,估计能激活几万PFLOPS的闲置资源。 这一突破把去年发布的混合训练框架连上了,形成了从训练到推理的完整系统。通过降低对某一种硬件的依赖,给咱们提供了一种更安全可控的新路子。专家说以后更多国产芯片加进来后,咱们的AI产业就能形成“多芯协同”的新生态,为“人工智能+”战略打下坚实的基础。