问题——随着人工智能模型规模向万亿参数演进、上下文窗口不断扩大,推理阶段对KV缓存等中间数据的存取需求显著上升。
与此同时,GPU侧高带宽内存(HBM)虽具备极高带宽,但受制于容量与成本约束,单靠堆叠HBM难以持续满足数据密集型工作负载,成为制约推理效率与系统扩展的关键瓶颈。
原因——一方面,工作负载结构正在从“算力为主”转向“数据为主”,大量数据在GPU、主存与存储之间频繁搬移,传统存储更多服务CPU的设计范式难以完全适配GPU发起的访问模式。
另一方面,大模型推理中的注意力计算、长上下文处理使KV缓存规模呈指数式膨胀,单纯依赖GPU显存不仅成本高、供给紧张,也会挤占模型参数与激活数据的空间,影响吞吐与时延稳定性。
行业因此提出“以分层存储扩展GPU可用内存”的思路,通过更靠近GPU的数据路径与更低延迟介质,缓解HBM容量压力。
影响——铠侠此次推出的GP系列“超高IOPS”SSD,定位于让GPU将高速闪存作为可直接访问的扩展层,从而在不线性增加HBM配置的情况下,扩大GPU可用数据空间并提升访问效率。
据介绍,该系列采用低延迟、高性能的XL-FLASH闪存,强调相较常见TLC方案具备更高IOPS、更细粒度访问能力以及更低的单位IO功耗,契合推理阶段“小块、频繁、低时延”的数据访问特点。
业内普遍认为,这类“GPU感知型存储”将推动存储从后台配套走向前台算力体系的一部分,并可能改变未来服务器中计算、内存与存储的传统边界。
对策——从产业协同看,英伟达此前提出Storage-Next等方向性倡议,意在引导SSD厂商围绕GPU发起的工作负载进行设计优化,探索“闪存作为可寻址内存层”的实现路径。
铠侠表示将通过GP系列响应这一趋势。
与此同时,为应对大规模推理对容量与耐用性的现实需求,铠侠同步公布CM9系列PCIe 5.0企业级SSD样品:采用E3.S规格,最高25.6TB容量、3DWPD耐久度,面向上下文存储与KV缓存等场景,强调在性能、容量与寿命之间取得平衡,降低推理基础设施在存储层面的总体拥有成本。
前景——多家机构研判,未来一段时期内,人工智能基础设施的竞争将不仅体现在算力峰值,更体现在数据路径效率与系统级优化能力。
随着GPU、网络与存储的协同持续深化,“近GPU存储”“分层缓存”“上下文外溢”等架构可能加速落地,带动企业级SSD在接口标准、时延、并发能力与能效方面持续迭代。
铠侠披露,GP系列评估样品预计于2026年底面向特定客户提供,CM9系列样品计划于2026年第三季度开始出货,相关产品能否形成规模化部署效应,有待后续生态适配与应用验证。
存储技术的突破正在成为AI发展的重要推动力。
铠侠此次发布的新产品不仅解决了当前AI计算面临的关键瓶颈,更为未来更大规模、更复杂的人工智能应用奠定了基础。
随着AI技术在各行业的深入应用,高效、可靠的存储解决方案将持续发挥不可替代的作用,推动数字经济时代的技术革新。
这一进展也预示着,存储与计算的深度融合将成为下一代计算架构的重要特征。