南京大学联合华为昇腾攻克大模型显存瓶颈推理效率实现倍增突破

问题——大模型规模快速增长，训练与推理部署门槛随之抬高。MoE（混合专家）通过“稀疏激活”在相近计算量下容纳更大的模型容量，成为提升模型能力的重要路径之一。但在真实推理场景中，MoE常遇到“参数体量大、访问离散、调度频繁”等工程挑战：当显存无法容纳足够多的专家参数时，系统只能让少量“热专家”常驻，其他专家需要在内存与显存间频繁换入换出；再叠加路由选择的不确定性，容易引发推理延迟抖动和吞吐下降。同时，面向多样化应用落地，业界对自主软硬件体系的适配与性能释放需求也在加速增长。原因——MoE的优势在于“按需调用”，但随之带来“按需搬运”的开销。首先，专家数量多且每次请求激活的专家组合变化大，参数传输难以形成稳定复用；其次，传统路由策略更多关注精度与负载均衡，较少从“专家功能冗余”和“可替代性”角度系统挖掘缓存与调度空间；再次，若CPU与加速器分工缺少精细协同，在小批量、短序列等任务中，参数加载与数据传输可能反而成为主要瓶颈，拉高端到端时延。多种因素叠加，使MoE推理在通用方案中常出现“显存吃紧、带宽紧张、时延难控”等问题。影响——推理效率直接影响大模型应用的成本与体验。显存占用过高会抬升单卡部署门槛，限制模型在更多场景和行业的规模化落地；频繁换入换出专家参数会挤占带宽资源，推高端到端延迟，影响对实时性更敏感的对话、检索增强生成、智能客服等业务；对特定高端硬件的高度依赖，也会增加算力供给与系统迭代的不确定性。因此，围绕“降显存、提吞吐、稳时延”的无损优化，成为MoE工程化落地的关键方向。对策——针对上述难点，南京大学李猛博士团队围绕“专家等价性”提出软硬件协同优化思路，并在昇腾平台实现异构推理混合部署框架与加速引擎。其核心做法是从模型结构与系统调度两端同时优化，将“计算、传输、加载”从串行等待改为并行重叠，把“必需专家常驻”与“可替代专家弹性调用”结合起来，提升缓存命中率与执行稳定性。一是构建多级流水并行机制，将参数加载、CPU侧串行任务与加速器侧并行推理进行重叠编排，减少数据搬运对计算主路径的阻塞，缓解传输压力。二是改造路由与缓存策略，基于专家等价性对专家分层管理：优先保障关键专家驻留显存；对可替代专家采用弹性替换，在不影响精度的前提下减少冗余传输与显存占用。三是引入在线预取机制，利用共享专家的引导在运行时预测后续可能调用的专家，提前完成参数加载，以更低等待成本隐藏预取时延，避免依赖离线训练或静态规则带来的适配不足。四是通过动态负载均衡策略，依据任务规模与运行状态在CPU与加速器之间更细粒度分配算力，缓解小批量任务中“加载开销大于计算收益”的问题，提升异构资源利用率。在工程实现上，团队结合昇腾硬件特性与涉及的软件栈，研发面向MoE推理的加速引擎，覆盖动态路由管理、专家预测预取与算子适配等模块，形成可复用的优化路径。前景——据介绍，该方案在不损失模型精度的条件下，将显存消耗降至原方案约一半，并提升推理效率与缓存命中率。业内人士认为，此进展不只体现在性能指标提升上：其一，为MoE在更广泛的通用服务器与多样化硬件环境中部署提供了可行路径，有助于降低大模型应用门槛；其二，软硬协同与异构调度的思路可扩展到更多稀疏结构模型与推理服务框架，推动优化从“单点算子”走向“全链路协同”；其三，若相关工具链深入开放完善，将有助于科研与产业开发者在统一框架下复用与扩展，加快生态成熟与应用落地。随着大模型进入“重推理、重应用”的阶段，围绕显存、带宽与时延的系统级优化仍将是提升综合竞争力的重要方向。

此次技术突破展示了中国科研团队在人工智能基础研究与工程化落地上的创新能力，也为构建自主可控的技术生态提供了支撑；在全球科技竞争持续加剧的背景下，加强原始创新、突破关键核心技术，仍是实现科技自立自强的关键路径。随着更多科研成果走向应用，我国在全球人工智能发展格局中的影响力有望深入提升。

南京大学联合华为昇腾攻克大模型显存瓶颈 推理效率实现倍增突破

南京大学联合华为昇腾攻克大模型显存瓶颈推理效率实现倍增突破