问题——随着大语言模型快速迭代,参数规模持续攀升,MoE(混合专家)等稀疏架构因“以更低计算成本承载更大模型容量”而成为重要方向;然而工程部署环节,MoE模型的一个突出矛盾是显存占用高:当显存无法容纳足够多的“热专家”参数时,大量专家需在内存与显存之间频繁搬运,导致推理延迟明显上升,吞吐受限,进而抬高算力成本、降低服务稳定性。同时,面向多样化应用场景,模型推理对软硬件协同适配的要求更为迫切,如何在保持精度不受影响的前提下提升效率,成为决定MoE落地速度的关键一环。 原因——业内普遍面临的难点主要来自三上:其一,MoE专家数量多、参数分散,带来高频的数据传输与缓存管理压力;其二,传统路由策略倾向于“按选择结果加载对应专家”,当专家冷热分布不均时,显存缓存命中率难以提升,加载与切换开销被放大;其三,不同任务批量大小和时延要求差异显著,单一设备或单一策略难以兼顾低时延与高吞吐,异构算力协同若缺乏精细调度,反而可能引入额外等待。 影响——显存与时延瓶颈不仅影响单模型的服务性能,也制约平台的资源利用效率。对企业而言,显存占用越高,单位算力可承载的并发越低,整体TCO上升;对科研与工程开发者而言,若模型部署高度依赖少数特定高端硬件,技术路线与供应链韧性将受到掣肘。更重要的是,MoE被视为通往更大规模模型的重要路径之一,若部署效率长期难以突破,其产业侧的应用扩展将受到限制。 对策——针对“无损精度、降低显存、减少搬运、提升并行”目标,南京大学李猛博士团队依托对应的科教算力条件,面向昇腾平台开展专家等价性驱动的优化研究,提出软硬件协同的异构推理混合部署框架,并形成一套面向全链路的关键技术组合。 一是构建三级流水线并行架构,将参数加载、CPU侧串行处理与设备侧并行推理进行深度重叠,尽可能把“传输等待”转化为“并行推进”,从机制上缓解数据搬运成为瓶颈的问题。 二是改进路由与缓存策略。研究基于对专家冗余性与等价性的观察,将专家划分为不同重要度层级,优先在显存中驻留核心专家,并允许以等价专家替代未加载的低优先级专家,从而减少冗余传输与显存占用压力,提升缓存利用效率。 三是提出共享专家引导的在线预取机制,在不依赖离线再训练的情况下预测后续可能调用的专家,提前完成参数加载,以“前移准备”来隐藏预取时延,降低突发切换带来的抖动。 四是引入双指针动态负载均衡算法,根据任务规模与运行状态动态分配CPU与设备侧算力,发挥异构计算优势,尤其针对小批量任务可能出现的加载时延问题进行针对性规避,提升端到端稳定性。 在此基础上,团队结合昇腾硬件特性及相关软件栈,研发异构推理加速引擎,覆盖动态专家路由管理、专家预测与预取、算子适配等模块,形成可复用的工程化能力。测试结果显示,在不牺牲模型精度的前提下,显存消耗较基线方案降低50%以上,推理速度较同类方法提升2倍以上,显存缓存命中率提升至70%以上,为MoE模型在多硬件环境中的高效部署提供了新的实现路径。 前景——当前,大模型竞争正从“参数规模”走向“训练推理效率与工程落地能力”的综合比拼。面向MoE架构的无损显存优化与异构协同推理,一上有望降低高显存依赖,扩大先进模型更多场景、更多硬件条件下的可用性;另一上也为构建开放可持续的软硬件生态提供支撑。相关团队表示,后续计划将推理优化工具链开放至社区与代码平台,便于科研与工程开发者复用和扩展。业内人士认为,随着工具链完善与更多应用验证落地,这类“面向部署”的关键技术突破将继续推动稀疏大模型走向规模化应用,并促使产业形成从模型设计、系统软件到硬件适配的协同创新路径。
此次技术进展展现了我国在人工智能基础研究领域的实力,不仅解决了实际应用中的关键问题,也为产学研协同创新提供了范例。随着更多成果转化,我国人工智能产业有望实现从跟随到引领的跨越。