上海人工智能实验室，让国产芯片跑得更快了

最近上海人工智能实验室有个大消息，他们弄出了一种新方法，把各种不同的国产芯片连在了一起，让AI应用跑得更快了。现在大家对智能计算的需求变了，以前训练用的那种超级算力涨得没那么快了，但很多行业需要的那种实时推理算力却像爆炸一样猛增。可是以前的国产算力生态就像孤岛一样，各个厂家的芯片因为没统一标准，很难一起干活，结果就是资源浪费和需求跟不上的矛盾越来越大。这次上海的实验室总算突破了这个难题，搞出了DeepLink这个混合推理框架。这就好比给AI推理搭了一个全明星团队，让擅长进攻的芯片去突破，让会组织的芯片去掌控节奏。技术团队专门针对AI推理的需求，想了一个叫预填充-解码分离（PD分离）的新架构。在那个有很多张显卡的大集群里测试时，这个方案把第一个字出来的时间缩短了34.5%，整体处理能力提高了32%。这意味着我们跟AI聊天的时候，系统反应速度快了近三分之一，说话也更顺畅了。数据显示，通过精准分工，不同芯片的特长都发挥出来了，整个集群的效率飞升。支撑这套方案的是三个核心技术部件：DLSolver就像人才测评系统，能精确算出每块芯片有多强；DLRouter像个战术指挥官，实时调整任务怎么跑；DLSlime则搭建了芯片之间的高速通道。这三样东西凑一块儿构成了调度中枢，让这些芯片配合得非常默契。现在已经适配了昇腾、沐曦等8个主流的国产芯片品牌。平均下来，推理性能都提高了20%以上。也就是说不换硬件的话，咱们能拿到相当于少花20%成本的算力。好几个省的算力中心已经开始用这个技术了，估计能激活几万PFLOPS的闲置资源。这一突破把去年发布的混合训练框架连上了，形成了从训练到推理的完整系统。通过降低对某一种硬件的依赖，给咱们提供了一种更安全可控的新路子。专家说以后更多国产芯片加进来后，咱们的AI产业就能形成“多芯协同”的新生态，为“人工智能+”战略打下坚实的基础。