软硬件协同攻克MoE显存瓶颈：昇腾平台实现显存减半与推理效率倍增

问题——随着大语言模型快速迭代，参数规模持续攀升，MoE（混合专家）等稀疏架构因“以更低计算成本承载更大模型容量”而成为重要方向；然而工程部署环节，MoE模型的一个突出矛盾是显存占用高：当显存无法容纳足够多的“热专家”参数时，大量专家需在内存与显存之间频繁搬运，导致推理延迟明显上升，吞吐受限，进而抬高算力成本、降低服务稳定性。同时，面向多样化应用场景，模型推理对软硬件协同适配的要求更为迫切，如何在保持精度不受影响的前提下提升效率，成为决定MoE落地速度的关键一环。原因——业内普遍面临的难点主要来自三上：其一，MoE专家数量多、参数分散，带来高频的数据传输与缓存管理压力；其二，传统路由策略倾向于“按选择结果加载对应专家”，当专家冷热分布不均时，显存缓存命中率难以提升，加载与切换开销被放大；其三，不同任务批量大小和时延要求差异显著，单一设备或单一策略难以兼顾低时延与高吞吐，异构算力协同若缺乏精细调度，反而可能引入额外等待。影响——显存与时延瓶颈不仅影响单模型的服务性能，也制约平台的资源利用效率。对企业而言，显存占用越高，单位算力可承载的并发越低，整体TCO上升；对科研与工程开发者而言，若模型部署高度依赖少数特定高端硬件，技术路线与供应链韧性将受到掣肘。更重要的是，MoE被视为通往更大规模模型的重要路径之一，若部署效率长期难以突破，其产业侧的应用扩展将受到限制。对策——针对“无损精度、降低显存、减少搬运、提升并行”目标，南京大学李猛博士团队依托对应的科教算力条件，面向昇腾平台开展专家等价性驱动的优化研究，提出软硬件协同的异构推理混合部署框架，并形成一套面向全链路的关键技术组合。一是构建三级流水线并行架构，将参数加载、CPU侧串行处理与设备侧并行推理进行深度重叠，尽可能把“传输等待”转化为“并行推进”，从机制上缓解数据搬运成为瓶颈的问题。二是改进路由与缓存策略。研究基于对专家冗余性与等价性的观察，将专家划分为不同重要度层级，优先在显存中驻留核心专家，并允许以等价专家替代未加载的低优先级专家，从而减少冗余传输与显存占用压力，提升缓存利用效率。三是提出共享专家引导的在线预取机制，在不依赖离线再训练的情况下预测后续可能调用的专家，提前完成参数加载，以“前移准备”来隐藏预取时延，降低突发切换带来的抖动。四是引入双指针动态负载均衡算法，根据任务规模与运行状态动态分配CPU与设备侧算力，发挥异构计算优势，尤其针对小批量任务可能出现的加载时延问题进行针对性规避，提升端到端稳定性。在此基础上，团队结合昇腾硬件特性及相关软件栈，研发异构推理加速引擎，覆盖动态专家路由管理、专家预测与预取、算子适配等模块，形成可复用的工程化能力。测试结果显示，在不牺牲模型精度的前提下，显存消耗较基线方案降低50%以上，推理速度较同类方法提升2倍以上，显存缓存命中率提升至70%以上，为MoE模型在多硬件环境中的高效部署提供了新的实现路径。前景——当前，大模型竞争正从“参数规模”走向“训练推理效率与工程落地能力”的综合比拼。面向MoE架构的无损显存优化与异构协同推理，一上有望降低高显存依赖，扩大先进模型更多场景、更多硬件条件下的可用性；另一上也为构建开放可持续的软硬件生态提供支撑。相关团队表示，后续计划将推理优化工具链开放至社区与代码平台，便于科研与工程开发者复用和扩展。业内人士认为，随着工具链完善与更多应用验证落地，这类“面向部署”的关键技术突破将继续推动稀疏大模型走向规模化应用，并促使产业形成从模型设计、系统软件到硬件适配的协同创新路径。

此次技术进展展现了我国在人工智能基础研究领域的实力，不仅解决了实际应用中的关键问题，也为产学研协同创新提供了范例。随着更多成果转化，我国人工智能产业有望实现从跟随到引领的跨越。