谷歌的一篇论文给了内存股狠狠一击。他们搞出一种kv 缓存压缩技术,竟然能把存储空间压小到原来

谷歌的一篇论文给了内存股狠狠一击。他们搞出一种KV缓存压缩技术,竟然能把存储空间压小到原来的六分之一。这下可好了,3月26日的时候,美股那边的内存芯片板块集体跳水,美光科技跌了4%,西部数据跌了4.4%,闪迪跌了6.5%,A股里的兆易创新和佰维存储也跟着惨跌超5%。话说谷歌这次是直接向内存宣战了,把存储巨头们吓得都不敢睡觉。这次他们发布了TurboQuant压缩算法,专门用来处理AI推理里的KV缓存。这东西简直神了,能把KV缓存至少压六倍,而且精度一点都不差。要是把它用在H100显卡上,速度还能提升八倍。这意味着以后本地的AI推理能力会变得超级强,能处理更大的上下文窗口,也能让设备上的内存压力减轻不少。这篇论文要等到ICLR 2026才正式亮相。KV缓存就是大模型生成文本时需要的一个东西,每生成一个新词就得回顾之前所有词的信息。为了不重复计算,模型会把每层产生的Key和Value向量临时存起来,做成一张“速查表”。这张表随着对话变长会越来越大——从4K扩展到128K的时候,消耗的显存往往比模型参数本身还多,成了推理阶段最大的瓶颈。TurboQuant就是两步解决这个问题:先用极坐标量化把XYZ坐标换成“距离 角度”的极坐标描述,省掉归一化常数开销;再用1比特误差校正抹平压缩残留的偏差。全程都不需要重新微调或者训练数据,直接把KV缓存压到3比特就搞定了。消息出来后,大家反应不一。有人开玩笑说内存价格能不能跟着跌一跌;有人指出压缩算法其实早就有了,训练环节没影响;还有人开始复现论文了;更有网友惊呼这不就是HBO《硅谷》里那个Pied Piper公司搞的技术吗?NVIDIA也在同场会议推出了KVTC压缩算法,能把压缩率提高到20倍,精度损失只有不到1个百分点。两种技术路线一起出来,说明KV缓存优化正在从研究走向实际应用。Cloudflare的CEO评价这就是“谷歌的DeepSeek时刻”。还有开发者在RTX 4090上用2-bit跑Gemma 3 4B,输出和没压缩过的一模一样。网友们还在热烈讨论呢。