AI工作负载激增,云架构为何要从存算分离走向数据就地处理

一、问题显现:传统架构难以适应新型工作负载 过去十余年,存储与计算分离的云架构被许多企业作为主流选择。这种体系下,存储负责保存数据,计算负责处理数据,二者各自扩展、相互解耦,在处理结构化数据的批量任务时运行较为稳定。 但随着智能化应用不断落地,企业要处理的数据已从规整的结构化表格,扩展到图像、视频、音频、文本、传感器信号等多模态非结构化数据。这类数据在进入模型前,通常需要经历清洗、转换、向量化、嵌入和元数据提取等步骤;同一份数据还会在训练、推理、测试等阶段被反复调用,而每次调用往往都伴随完整的数据传输与格式转换成本。 二、原因剖析:被动存储模式成为效率瓶颈 传统架构的关键问题在于:存储系统被定位为被动组件。它更像静态仓库,只等计算层来取数据,本身不参与数据组织、优化与转换。数据规模较小时影响不明显,但当数据增长到PB甚至EB级别,存储与计算之间的频繁搬运就会成为主要消耗。 更具体地说,每次取数往往都要走一遍“从存储搬到计算—重新转换—处理结束后不保留结果—下次再从头来”的循环。这不仅让算力在等待数据传输时被浪费,也让企业在智能化项目中的投入大量消耗在数据准备上,而不是模型能力提升上。有研究显示,数据科学从业者约八成时间用于数据整理,这从侧面反映了现有架构的结构性短板。 三、影响评估:算力浪费与项目搁浅风险并存 这种架构限制带来的影响是多上的。经济层面,重复传输与重复转换直接推高云资源成本,企业智能化投入的边际收益被不断稀释。工程层面,GPU等高价值算力常常处于“等数据”的空转状态,硬件利用率受限。战略层面,数据准备周期拉长会拖慢模型迭代,一些企业的智能化项目因此推进困难,甚至错过市场窗口。 从更宏观的角度看,大量数据长期沉淀传统存储系统中,更多被当作成本而非资产。数据并未失去价值,真正的瓶颈在于计算能力能否与数据高效协同。 四、对策探索:智能存储推动范式转移 针对这些问题,业界正在推动架构思路的转变:与其把数据搬到计算所在之处,不如把部分计算能力延伸到数据所在之处。 由此出现了“智能存储”的概念。与被动存储不同,智能存储将数据转换、向量化、元数据提取等操作下推到存储层完成,形成“一次准备、多次复用”。在这种模式下,存储不再只是数据仓库,而成为具备处理能力的数据平台,能够持续维护优化后的数据形态,供下游流程随取随用。 从效果看,智能存储在性能和成本两上都有优势。性能上,数据管道整体吞吐提升,算力从等待I/O中传递出来,更集中用于模型计算。成本上,数据准备从多次重复支出变为一次性投入,下游工作流共享同一份优化成果,重复开销明显降低。 五、前景展望:基础设施智能化是必然方向 从行业趋势看,企业信息基础设施走向智能化是必然。竞争焦点正在从“在旧架构里榨取边际收益”,转向“是否拥有真正适配智能化工作负载的新架构”。能够减少重复准备、减少不必要搬运、提升算力有效利用的基础设施,将在新一轮技术竞赛中更具主动权。 存算分离在特定阶段有其合理性,但面向未来,仅靠物理层面的分离已难以满足智能化需求。如何在保留弹性扩展优势的同时,让存储具备更强的主动处理能力,将成为企业IT架构演进的重要议题。

基础设施的演进往往伴随技术变革。从云计算到人工智能,每一次突破都在重塑IT格局。面对智能时代的数据洪流——企业需要跳出既有路径——以更合适的架构释放数据价值,才能在数字化转型中抢占先机。存储技术的这个轮革新,可能会重新定义未来十年的计算生态。