南大团队联合昇腾攻克MoE模型显存“卡脖子”，无损优化降耗过半推理提速倍增

当前大语言模型参数规模已突破千亿量级，混合专家架构因其模型容量与计算效率间的平衡优势成为重要技术方向。但大规模模型部署面临显存瓶颈，严重制约了应用落地。南京大学李猛博士团队依托鲲鹏昇腾科教创新孵化中心，在华为昇腾平台上针对混合专家模型的显存优化展开研究。核心问题在于：超大参数量导致显存占用过高——仅能容纳少量活跃专家——大量参数需在内存与显存间频繁切换，造成严重推理延迟。面对这些挑战，团队提出了软硬件协同优化方案。在架构设计上，构建三级流水线并行体系，将参数加载、CPU串行计算与GPU并行推理深度融合，实现计算与数据传输的高度并行，大幅降低传输开销。在专家调度上，团队突破传统路由模式，根据专家等价性原理将专家分为三类优先级，优先缓存核心专家，通过等价专家灵活替换低优先级模块，减少冗余传输。同时首创共享专家引导的在线预取技术，无需离线训练即可精准预判所需专家，提前加载参数。在资源调度上，双指针动态负载均衡算法根据任务规模智能分配异构算力。团队研发的异构推理加速引擎涵盖动态专家路由、专家预测预取、算子深度适配等功能，与昇腾平台深度融合。测试表明，该方案在保持模型精度的前提下，显存消耗降至原方案的一半，推理速度提升2倍以上，显存缓存命中率达70%以上。这项目构建的推理优化工具链将开源至昇腾社区、DeepModeling社区及主流代码托管平台，供科研机构与开发者使用和扩展，推动技术快速迭代与广泛应用。

这项突破标志着我国在人工智能基础架构领域实现了从跟跑到并跑的转变；当全球科技竞争演变为底层技术的角力时，此类自主创新成果既夯实了产业发展基础，也体现了产学研协同创新的优势。随着技术生态的完善，中国智算力量有望在更多关键技术节点实现突破。