odcc ai 存储实验室：yrcache 推理存储系统

为了应对大模型在企业中越来越多地落地带来的基础设施挑战，开放数据中心委员会（ODCC）这次搞了个大动作。他们找来了NVIDIA、美团、三星还有Solidigm这些产业链里的领头羊，在自己旗下的AI存储实验室，专门针对大模型推理中的一大痛点——KV Cache，搞了个专项评测。结果呢，国内一家叫焱融的公司拿出了自主研发的YRCache推理存储系统，这波操作算是把“提速降本”给拿捏住了。咱们都知道，随着上下文长度变长、用户并发请求增多，老的GPU显存架构早就成了拖后腿的关键瓶颈。怎么通过系统架构的优化来释放算力潜力，让推理性能上去的同时还能控制好成本，这可是企业能不能挖到AI这块金子的关键。这次测试是在真实的推理环境里做的，用了DeepSeek-R1这样的主流大模型。测试还把中端的GDDR GPU和高端的HBM GPU都拉进来了，在200Gbps到800Gbps的不同网络带宽配置下，把原生vLLM框架和装了YRCache后的系统作了个对比。好消息是，YRCache这个多级缓存架构把GPU显存、主机内存、本地NVMe SSD和高性能分布式存储给串在了一起。它的最大好处就是能显著扩大KV缓存空间，彻底打破显存那个老框框。测试结果出来后，大家都挺意外。在Batch值设为16、输入长度是10K Tokens的典型环境里，装了YRCache后，首Token延迟（TTFT）和单个Token生成时间（TPOT）居然都降低了97%！系统的Token吞吐量更是猛涨了22倍。这就意味着以后用户提问基本能秒回，长文档生成也顺滑得像丝绸一样。不光是速度快了，系统的服务能力也更强了，能处理更多并发请求。单token的成本自然也就跟着下来了。更绝的是，在输入Token从100扩展到100K这种超长文本的场景里，YRCache依然表现稳定。而且随着上下文越长，它的加速效果反而越明显。这对那些经常搞长文档分析或者多轮对话的高负载任务来说，简直就是救命稻草。最让人兴奋的是，中端GDDR GPU的综合性能居然在YRCache的加持下追平了高端HBM GPU。原生状态下中端GPU的吞吐量只有高端的30%，但装上YRCache后差距就没那么大了，能达到高端HBM GPU的79%。这直接导致了投资回报率（ROI）飙升到14倍。以前要想搞高性能推理，就得花大钱买高配卡；现在用“中端GDDRGPU服务器+YRCache”的组合，同样的钱能带来远超原生方案的产出效率。这次ODCC的首发评测不光证明了技术过硬，更标志着“以存促算、架构降本”这条路走通了。作为ODCC AI存储实验室的实践之一，它为行业提供了实打实的参考标准。焱融科技表示，YRCache还支持PD分离等下一代架构的分离。他们打算继续用“数量级性能提升+颠覆性成本优化”这两把刷子，帮企业在AI规模化落地的大潮中以更低的成本抢到先机。