普林斯顿等团队发布FlashAttention-4优化方案让英伟达B200注意力算力利用率升至71%

问题——“峰值很高，跑起来不满” 随着大模型训练与推理需求持续上升，数据中心GPU的理论峰值算力不断刷新。以新一代数据中心GPU Blackwell B200为例，其张量核心理论算力可达2.25PFLOPS，按设计预期应在注意力计算等关键环节带来明显提速。但普林斯顿大学与产业合作团队测试发现，一些典型注意力算子实际只能发挥约20%至30%的峰值能力，存在显著算力闲置。对企业和开发者来说——这不仅拉长训练周期——也抬高硬件投入与能耗成本。原因——性能结构不对称与算子瓶颈叠加研究团队认为，症结不在某个单一指标，而在关键路径上的软硬件“结构性不匹配”。B200在矩阵乘法等主路径的吞吐大幅增强，但注意力计算并不只由矩阵乘法决定，还包含共享内存读写、归一化、指数运算等环节。测试显示，负责指数等特殊函数的MUFU单元吞吐并未随新架构同步提升，与上一代Hopper接近，导致“强项更强、短板未补”的问题被深入放大。当矩阵乘法更快后，指数运算和数据搬运更容易成为瓶颈，于是出现“峰值翻倍却难转化为实际速度”的现象。影响——效率问题正转化为成本与供给压力在算力供需紧平衡的背景下，利用率偏低的直接结果是完成同样训练与推理任务需要更多GPU时长，云服务成本与能耗支出随之上升。对研发侧而言，算子性能波动会增加工程不确定性，影响模型迭代节奏；对产业侧而言，算力“空转”意味着同等硬件投入下可交付的有效计算减少，削弱算力基础设施的规模效益。因此，如何把峰值算力更稳定地转化为有效吞吐，正成为硬件升级后的更紧迫课题。对策——FlashAttention-4以算法与工程重构补齐短板为缓解上述矛盾，由Tri Dao牵头、联合Meta、TogetherAI等机构并有厂商参与的团队推出FlashAttention-4，面向Blackwell架构对注意力计算做针对性改造。其核心思路是通过算法近似与流水线重构提升短板环节吞吐，同时尽量让计算与访存重叠，减少等待。一是提升指数计算效率。团队用软件模拟、多项式近似等方式提高指数运算吞吐，并引入条件性softmax rescaling策略，减少不必要的计算，从而降低对MUFU等单元的依赖。二是重构计算流水线。通过重新组织算子内部调度与并行策略，让关键阶段尽可能重叠执行，压缩等待与空闲，把分散开销收敛到更可控的路径中，提高整体占用率。三是预留面向后续硬件演进的空间。在实现中考虑未来硬件单元能力变化的适配，使优化策略可随新一代GPU特性调整，避免只对单代架构有效。值得关注的是，FlashAttention-4在工程层面也强调“易用、可迭代”。其基于Python的CuTe-DSL框架实现，编译效率明显提升：前向传播编译时间从55秒降至2.5秒，反向传播从45秒降至1.4秒，整体编译速度最高提升约30倍。实测数据显示，FlashAttention-4在B200上前向传播达到1613 TFLOPS/s，峰值利用率提升至71%，并在长序列、因果掩码等常见大模型场景中表现更好。前景——软硬件协同将成为算力竞争新焦点业内人士认为，随着GPU峰值持续增长，系统效率越来越取决于从算子到系统的协同优化：硬件在提升主计算单元的同时，也需要补齐特殊函数、片上存储与带宽等配套能力；软件栈则要更快跟进新架构，通过更高效的编译与调度缩短适配周期。FlashAttention-4的实践表明，面向特定架构做精细化算子设计，能把更多“纸面算力”转化为可交付的有效算力。未来，类似方法有望扩展到更多核心算子及端到端训练推理流程，推动数据中心算力走向更高效率与更低能耗。

普林斯顿团队的这项研究表明，在峰值算力不断攀升的同时，软硬件协同与资源利用效率正在成为新的关键竞争点。与其只追求更高的理论指标，更重要的是让算力在真实负载中持续、稳定地发挥出来。该案例既为产业界提供了可借鉴的优化路径，也提示未来高性能计算的进步将更多来自系统层面的效率提升。在全球算力需求继续增长的背景下，这类创新有望推动行业重新衡量并提升高性能计算的效率标准。

普林斯顿等团队发布FlashAttention-4优化方案 让英伟达B200注意力算力利用率升至71%

普林斯顿等团队发布FlashAttention-4优化方案让英伟达B200注意力算力利用率升至71%