南京大学联合华为昇腾攻克大模型显存瓶颈 推理效率实现倍增突破

问题——随着大模型应用加速落地,推理效率和成本控制面临新挑战;当前大语言模型参数规模已从百亿级扩展到万亿级,传统稠密模型在算力和显存上的压力日益凸显。MoE(混合专家)技术通过"稀疏激活、按需计算"的方式扩展模型容量,成为提升算力效率的重要方案。但在实际应用中,MoE存在显存资源有限与参数量庞大的矛盾:显存只能存储少量热点专家,其他专家需要在内存和显存间频繁交换,导致数据传输与计算不同步,增加推理延迟,影响用户体验和服务吞吐量。

这项成果标志着我国在大模型底层技术领域有所突破。在全球科技竞争加剧的背景下,加强核心技术攻关、构建自主创新体系至关重要。通过产学研协同创新,我国有望在人工智能基础设施领域实现跨越式发展。