问题:算力评价标准面临现实挑战 近年来,大模型训练与推理基础设施建设持续升温,各类芯片与集群产品不断推出,峰值算力等指标成为市场关注焦点;但随着大规模推理需求快速增长,数据中心的实际瓶颈已从"算力充足"转向"成本可控、运行稳定"。多地智算中心实践表明,相同机房面积和用电规模下,不同系统架构的实际产出差异显著:推理吞吐量、延迟、稳定性和单位成本并非与"峰值参数"成正比,行业亟需建立更符合业务需求和能源限制的评估标准。 原因:电力、散热与网络制约AI规模化发展 GTC大会上,企业提出以"每瓦Token产出"作为关键指标,直指数据中心运营的物理限制:算力设施的最终产能受制于供电和散热能力,园区电力供应存在刚性上限,难以通过简单扩容实现倍增。同时,推理链路涉及计算、通信、存储与调度等多个环节,任何短板都可能影响整体性能。因此,仅比较芯片的峰值算力或理论能效,已无法准确反映基础设施将电力转化为"可用智能产出"的实际能力。 需要指出,推理场景对系统协同要求更高:模型请求具有高并发、强波动特征,对资源弹性和调度效率更敏感;企业也更关注成本与能耗,不仅在乎生成多少Token,还在意相应的电力消耗、带宽占用和冷却成本。"每瓦Token"此指标,将技术参数、运营成本与商业收益更直接地联系起来。 影响:竞争从芯片性能扩展到全栈体系 本次大会发布的产品方案虽然聚焦新芯片和推理加速,但实质是将竞争范围从单一硬件扩展到系统级基础设施,强调以机架、集群乃至数据中心为单位的整体交付能力。"AI工厂"概念将计算、网络、存储、供电、冷却等要素纳入统一评估框架,产业竞争重点从"芯片速度"转向"以更低能耗、更高稳定性、更低总成本交付更多可用Token"。 国内企业也在调整战略。阿里巴巴成立以Token为核心的新平台并由高管挂帅,显示出将"Token供给能力"提升为战略重点的信号。这反映企业对大模型供给能力的重新定位:从模型算法竞争,转向面向业务交付的工程化、系统化能力竞争,构建涵盖数据、模型、推理服务、资源调度与成本控制的完整体系。 对策:建立符合业务需求的评价体系,提升系统工程能力 业内认为,面向推理时代的算力基础设施需在三上加快转型: 1. 评估体系从部件指标转向端到端指标 峰值算力等参数仍有参考价值,但不宜作为主要产能指标。更合理的评估应覆盖从请求输入到结果输出的全链路效率,突出单位电力可交付的Token量,并综合考虑延迟、稳定性、可用性和成本。 2. 系统工程能力成为竞争核心 提升每瓦Token产出不能仅依赖更强芯片,还需网络拓扑、存储供给、并行策略、编译优化、集群调度等环节的整体协同。运营侧还需优化供电架构、冷却方案、机房布局等,减少"算力闲置"和非计算能耗。 3. 开放协同推动产业链优化 系统效率提升涉及多环节协同,需建立可复用的接口标准、软件生态和运维体系,降低建设与迁移成本,避免过度依赖单一环节带来的风险。 前景:算力产业进入"能效优先"新时代 全球大模型推理需求将持续增长,算力扩张与能源约束的矛盾将长期存在。"每瓦Token"有望成为行业通用指标,推动产业从"堆硬件"转向"提效率"。这意味着企业需要更强的全栈能力:不仅要有芯片和服务器,更要具备面向大规模推理的系统设计、软件优化和运营管理能力。 这一转变也为算力基础设施产业带来新机遇。高效网络、先进冷却、能耗管理等领域创新空间将继续打开。对建设智算中心的地区和企业而言,重点应从"规模扩张"转向"提升单位能耗产出"和"可持续运营",以可控成本支撑产业发展。
这场由"能效革命"引发的产业变革,本质是在数字文明与物理世界间寻求新平衡。当算力竞争从技术指标转向系统效能,其影响或将超越AI领域,重塑数字经济的发展逻辑。历史表明,每次评估体系的升级都伴随着产业格局重构,此次,中国科技企业已站上同一起跑线。