一、问题:算力“跑不满”,推理存储成为关键掣肘 当前大模型应用正从训练阶段走向规模化落地,推理环节对实时响应和并发能力提出更高要求;与训练侧主要依靠“堆算力”不同,推理更依赖数据读取、特征加载、KV缓存访问等链路的持续低时延与稳定性。一旦存储吞吐不足或时延波动,算力利用率就会被拉低,出现“芯片算得快、数据供不上”的情况。业内普遍认为,推理基础设施中,存储的性能、兼容性和总体拥有成本,直接决定大模型在企业生产环境中的可用性与投入产出。 二、原因:供给结构与场景差异叠加,专用化需求上升 一上,推理业务具有高并发、小批量、强实时等特点,优化方向与面向事务处理或批处理的通用存储并不一致;另一方面,国产算力平台进入规模部署后,产业链对软硬协同、可验证以及持续供货的要求更明确。此前,部分高端存储生态适配、成本控制和交付周期诸上存不确定性,客观上抬高了企业部署门槛,也增加了系统集成复杂度。推理存储从“通用可用”转向“场景最优”,成为需求变化下的自然结果。 三、影响:降低时延与能耗,提升推理效率与部署密度 据华为在会上发布的数据,OceanStor A800针对推理链路进行了专属优化,可将首字时延降低90%,整体读写性能提升5倍;在系统形态上,单套最高支持1PB容量,同时功耗降低60%、占地面积缩小70%,以适配大规模数据中心部署。华为现场演示显示,在与昇腾对应的平台协同的条件下,万亿参数大模型的推理响应速度明显提升,并将时延控制在毫秒级范围内。业内人士指出,推理体验不只取决于峰值算力,更取决于端到端的稳定性与可扩展性;如果存储侧能持续提供低时延和高并发支撑,将有助于提升集群整体效率,进而降低单位推理成本。 四、对策:以生态协同与开放接口推动落地,覆盖不同规模用户 从落地角度看,推理存储的价值不仅在于单项指标,更在于与芯片、框架、网络和调度体系的协同能力。华为表示,将开放相关技术接口,联合产业链伙伴推进适配与迭代,并提供面向不同规模用户的产品形态,降低中小企业使用门槛。此外,记者注意到,部分头部互联网企业与行业客户正围绕推理存储开展联合验证和部署探索。受访专家认为,面向推理的基础设施建设应强调可复用、可迁移和可运维:既要承接当前大模型应用快速增长,也要为后续模型迭代与业务变化留出空间。 五、前景:从“单点突破”走向“体系完善”,竞争将回归综合能力 随着大模型应用向政务、金融、制造、交通等领域深入,推理基础设施的竞争将更多围绕综合成本、交付能力、能效比和生态兼容展开。专用推理存储的推出,意味着国产算力体系在关键环节更补齐,有望缓解“高端供给不足、整体成本偏高”等问题,并提升端到端的可控性与韧性。业内判断,下一阶段重点可能集中在三上:一是进一步降低全链路时延波动,提高高并发场景下的稳定性;二是加强与主流推理框架、编排系统的兼容,减少迁移成本;三是以能效和运维为牵引,推动数据中心绿色化与规模化复制。
华为在AI基础设施上的持续投入,说明了中国科技企业在关键技术上的攻关能力。从芯片到存储的链条布局,为数字经济提供了更稳定的底座,也让产业在关键环节拥有更多选择。该进展也表明,只有在核心技术上持续创新与积累,才能在关键领域保持主动。