我国科研团队攻克GPU程序优化难题 计算效率实现革命性突破

(问题)GPU已成为支撑图形渲染、科学计算和大模型训练的关键硬件。但GPU"算得快"不等于"用得好"。实践中,要让计算任务特定GPU上接近峰值性能,需要对内存访问、线程组织和指令调度等细节反复调校。对大多数团队来说,这种手工优化周期长、门槛高,而且硬件更新或任务变化时,既有方案常需大幅返工,严重影响了算力转化效率。 (原因)业内虽有自动化调优工具,但适用范围和泛化能力仍是瓶颈。一上,现有方案多集中深度学习常见算子和固定框架,对稀疏矩阵、通用线性代数和科学计算的支持不足;另一上,GPU架构差异与任务多样性并存,难以用"通用模板"一体适配。此外,缺少覆盖多领域、多精度、多算子的系统化评测基准,使自动化方案难以统一标准下迭代和比较。 (影响)长期依赖少数专家手工优化会带来两个问题:一是硬件成本难以充分转化为实际吞吐,二是科研和产业软件迭代受限,尤其在稀疏计算、科学仿真和工程求解等领域,性能瓶颈直接影响模型规模、实验周期和业务成本。因此,面向多领域任务的自动化调优成为打通"硬件能力—软件效率—应用落地"的关键环节。 (对策)研究团队在2026年3月发表的论文(arXiv:2603.07169v1)提出了CUDAMaster系统和配套的MSKernelBench评测集。MSKernelBench包含约50项任务,涵盖密集矩阵运算、稀疏矩阵处理、大模型操作和科学计算等多类负载,每项任务提供两种数据精度,为多场景优化提供统一基准。 CUDAMaster采用"先诊断、再施策、迭代改进"的方法。系统先分析程序的性能瓶颈(计算受限、内存延迟受限或带宽受限),再由不同模块协同制定策略、改写代码、编译执行和排查问题,通过多轮迭代逐步优化。若某轮优化失效或引入错误,系统可回退到最佳版本并尝试其他方案,确保过程稳定和结果可复现。 (前景)实验表明,在50个任务中,该方案在94%的任务上实现了性能提升,约60%的任务获得2倍以上加速。特别不容忽视的是,部分算子超过了业界主流商用库:稀疏矩阵乘法性能提升约2.96倍,点积运算提升约46.83倍,卷积运算相对主流深度学习库提升约1.83倍。与现有Astra框架相比,整体平均提升约35%,部分任务增益更高。这表明面向多领域的自动化调优有潜力超越既有手工经验和固定库实现。 业界认为,该技术若深入成熟,将在三个上产生效应:一是降低GPU优化门槛,让更多团队专注应用和算法创新;二是提升数据中心和超算平台的实际产出效率;三是促进软硬件协同演进,为国产生态的编译优化、算子库建设提供借鉴。 同时也要看到,从论文成果到大规模应用还需检验,包括对不同GPU架构的适配性、对复杂应用的稳定性,以及在生产环境中的可维护性等。下一步需要在更大规模基准、更复杂工作负载和可解释优化策略上深入探索。

这项研究成果的推出,标志着我国在GPU计算优化领域的重要突破。从人工调优到智能自动优化的转变,不仅是技术进步,更是计算思维的升级。这表明通过创新的系统设计和智能化方法,我们可以在核心技术领域实现自主可控和性能提升。这对推动高性能计算产业发展和增强科技创新能力很重要。