为了应对大模型在企业中越来越多地落地带来的基础设施挑战,开放数据中心委员会(ODCC)这次搞了个大动作。他们找来了NVIDIA、美团、三星还有Solidigm这些产业链里的领头羊,在自己旗下的AI存储实验室,专门针对大模型推理中的一大痛点——KV Cache,搞了个专项评测。结果呢,国内一家叫焱融的公司拿出了自主研发的YRCache推理存储系统,这波操作算是把“提速降本”给拿捏住了。 咱们都知道,随着上下文长度变长、用户并发请求增多,老的GPU显存架构早就成了拖后腿的关键瓶颈。怎么通过系统架构的优化来释放算力潜力,让推理性能上去的同时还能控制好成本,这可是企业能不能挖到AI这块金子的关键。 这次测试是在真实的推理环境里做的,用了DeepSeek-R1这样的主流大模型。测试还把中端的GDDR GPU和高端的HBM GPU都拉进来了,在200Gbps到800Gbps的不同网络带宽配置下,把原生vLLM框架和装了YRCache后的系统作了个对比。 好消息是,YRCache这个多级缓存架构把GPU显存、主机内存、本地NVMe SSD和高性能分布式存储给串在了一起。它的最大好处就是能显著扩大KV缓存空间,彻底打破显存那个老框框。 测试结果出来后,大家都挺意外。在Batch值设为16、输入长度是10K Tokens的典型环境里,装了YRCache后,首Token延迟(TTFT)和单个Token生成时间(TPOT)居然都降低了97%!系统的Token吞吐量更是猛涨了22倍。这就意味着以后用户提问基本能秒回,长文档生成也顺滑得像丝绸一样。 不光是速度快了,系统的服务能力也更强了,能处理更多并发请求。单token的成本自然也就跟着下来了。更绝的是,在输入Token从100扩展到100K这种超长文本的场景里,YRCache依然表现稳定。而且随着上下文越长,它的加速效果反而越明显。这对那些经常搞长文档分析或者多轮对话的高负载任务来说,简直就是救命稻草。 最让人兴奋的是,中端GDDR GPU的综合性能居然在YRCache的加持下追平了高端HBM GPU。原生状态下中端GPU的吞吐量只有高端的30%,但装上YRCache后差距就没那么大了,能达到高端HBM GPU的79%。 这直接导致了投资回报率(ROI)飙升到14倍。以前要想搞高性能推理,就得花大钱买高配卡;现在用“中端GDDRGPU服务器+YRCache”的组合,同样的钱能带来远超原生方案的产出效率。 这次ODCC的首发评测不光证明了技术过硬,更标志着“以存促算、架构降本”这条路走通了。作为ODCC AI存储实验室的实践之一,它为行业提供了实打实的参考标准。 焱融科技表示,YRCache还支持PD分离等下一代架构的分离。他们打算继续用“数量级性能提升+颠覆性成本优化”这两把刷子,帮企业在AI规模化落地的大潮中以更低的成本抢到先机。