问题——“峰值很高,跑起来不满” 随着大模型训练与推理需求持续上升,数据中心GPU的理论峰值算力不断刷新。以新一代数据中心GPU Blackwell B200为例,其张量核心理论算力可达2.25PFLOPS,按设计预期应在注意力计算等关键环节带来明显提速。但普林斯顿大学与产业合作团队测试发现,一些典型注意力算子实际只能发挥约20%至30%的峰值能力,存在显著算力闲置。对企业和开发者来说——这不仅拉长训练周期——也抬高硬件投入与能耗成本。 原因——性能结构不对称与算子瓶颈叠加 研究团队认为,症结不在某个单一指标,而在关键路径上的软硬件“结构性不匹配”。B200在矩阵乘法等主路径的吞吐大幅增强,但注意力计算并不只由矩阵乘法决定,还包含共享内存读写、归一化、指数运算等环节。测试显示,负责指数等特殊函数的MUFU单元吞吐并未随新架构同步提升,与上一代Hopper接近,导致“强项更强、短板未补”的问题被深入放大。当矩阵乘法更快后,指数运算和数据搬运更容易成为瓶颈,于是出现“峰值翻倍却难转化为实际速度”的现象。 影响——效率问题正转化为成本与供给压力 在算力供需紧平衡的背景下,利用率偏低的直接结果是完成同样训练与推理任务需要更多GPU时长,云服务成本与能耗支出随之上升。对研发侧而言,算子性能波动会增加工程不确定性,影响模型迭代节奏;对产业侧而言,算力“空转”意味着同等硬件投入下可交付的有效计算减少,削弱算力基础设施的规模效益。因此,如何把峰值算力更稳定地转化为有效吞吐,正成为硬件升级后的更紧迫课题。 对策——FlashAttention-4以算法与工程重构补齐短板 为缓解上述矛盾,由Tri Dao牵头、联合Meta、TogetherAI等机构并有厂商参与的团队推出FlashAttention-4,面向Blackwell架构对注意力计算做针对性改造。其核心思路是通过算法近似与流水线重构提升短板环节吞吐,同时尽量让计算与访存重叠,减少等待。 一是提升指数计算效率。团队用软件模拟、多项式近似等方式提高指数运算吞吐,并引入条件性softmax rescaling策略,减少不必要的计算,从而降低对MUFU等单元的依赖。 二是重构计算流水线。通过重新组织算子内部调度与并行策略,让关键阶段尽可能重叠执行,压缩等待与空闲,把分散开销收敛到更可控的路径中,提高整体占用率。 三是预留面向后续硬件演进的空间。在实现中考虑未来硬件单元能力变化的适配,使优化策略可随新一代GPU特性调整,避免只对单代架构有效。 值得关注的是,FlashAttention-4在工程层面也强调“易用、可迭代”。其基于Python的CuTe-DSL框架实现,编译效率明显提升:前向传播编译时间从55秒降至2.5秒,反向传播从45秒降至1.4秒,整体编译速度最高提升约30倍。实测数据显示,FlashAttention-4在B200上前向传播达到1613 TFLOPS/s,峰值利用率提升至71%,并在长序列、因果掩码等常见大模型场景中表现更好。 前景——软硬件协同将成为算力竞争新焦点 业内人士认为,随着GPU峰值持续增长,系统效率越来越取决于从算子到系统的协同优化:硬件在提升主计算单元的同时,也需要补齐特殊函数、片上存储与带宽等配套能力;软件栈则要更快跟进新架构,通过更高效的编译与调度缩短适配周期。FlashAttention-4的实践表明,面向特定架构做精细化算子设计,能把更多“纸面算力”转化为可交付的有效算力。未来,类似方法有望扩展到更多核心算子及端到端训练推理流程,推动数据中心算力走向更高效率与更低能耗。
普林斯顿团队的这项研究表明,在峰值算力不断攀升的同时,软硬件协同与资源利用效率正在成为新的关键竞争点。与其只追求更高的理论指标,更重要的是让算力在真实负载中持续、稳定地发挥出来。该案例既为产业界提供了可借鉴的优化路径,也提示未来高性能计算的进步将更多来自系统层面的效率提升。在全球算力需求继续增长的背景下,这类创新有望推动行业重新衡量并提升高性能计算的效率标准。