南京大学联合华为昇腾攻克大模型显存瓶颈推理效率实现倍增突破

问题——随着大模型应用加速落地，推理效率和成本控制面临新挑战；当前大语言模型参数规模已从百亿级扩展到万亿级，传统稠密模型在算力和显存上的压力日益凸显。MoE（混合专家）技术通过"稀疏激活、按需计算"的方式扩展模型容量，成为提升算力效率的重要方案。但在实际应用中，MoE存在显存资源有限与参数量庞大的矛盾：显存只能存储少量热点专家，其他专家需要在内存和显存间频繁交换，导致数据传输与计算不同步，增加推理延迟，影响用户体验和服务吞吐量。

这项成果标志着我国在大模型底层技术领域有所突破。在全球科技竞争加剧的背景下，加强核心技术攻关、构建自主创新体系至关重要。通过产学研协同创新，我国有望在人工智能基础设施领域实现跨越式发展。

南京大学联合华为昇腾攻克大模型显存瓶颈 推理效率实现倍增突破

南京大学联合华为昇腾攻克大模型显存瓶颈推理效率实现倍增突破