谷歌推了个大新闻，turboquant的压缩算法，直接把ai 运行占用的内存给砍到了六分

昨天谷歌那边搞出个大新闻，他们推了个叫 TurboQuant 的压缩算法，直接把 AI 运行占用的内存给砍到了六分之一。这是谷歌研究院搞出来的一套极端压缩方案，主要是想解决大模型在处理键值缓存（KV Cache）时内存吃紧的老毛病。大家都知道，向量是 AI 模型理解和处理信息的基础，但维度太高的向量特别占内存，这就会把 KV Cache 给挤爆。以前那种高维向量量化技术虽然能压缩数据，可因为得算一堆乱七八糟的量化常数来存起来，又给内存加了不少负担，这就导致大家在搞长文本或者大规模搜索的时候还是跑不动。为了彻底解决这事儿，谷歌这次拿出了两样硬家伙：量化 Johnson-Lindenstrauss（QJL）和 PolarQuant（这个会在 AISTATS 2026 上亮相），这三项技术一块干活，就把以前那种特别占内存的问题给破解了。 TurboQuant 干活分两步走。第一步先用 PolarQuant 把主要的数据质量给搞上去。这个 PolarQuant 挺特别，它不走寻常路，不用传统的直角坐标系，直接把向量变成极坐标，让数据点落在一个圆的网格上。这样一来就省去了费劲儿的数据归一化步骤，把传统方法那些额外的内存开销给彻底消掉了。第二步再用 QJL 去收拾刚才剩下的那点小误差。QJL 只要花 1 比特的算力就能像纠错机一样把偏差给修正过来，保证算出来的注意力分数准得很。研究团队拿 Gemma 和 Mistral 这两个开源的大模型试了试水。数据显示，TurboQuant 根本不用再额外去训练或者微调一下，就能把 KV Cache 非常干脆地压缩到 3 比特大小。在“大海捞针”这种长上下文的测试里根本一点精度都不丢，内存占用还能降到 1/6。最夸张的是在 H100 GPU 加速器上跑 4 比特的 TurboQuant 比没量化的 32 比特版本快了整整 8 倍。