谷歌推了个大新闻,turboquant的压缩算法,直接把ai 运行占用的内存给砍到了六分

昨天谷歌那边搞出个大新闻,他们推了个叫 TurboQuant 的压缩算法,直接把 AI 运行占用的内存给砍到了六分之一。这是谷歌研究院搞出来的一套极端压缩方案,主要是想解决大模型在处理键值缓存(KV Cache)时内存吃紧的老毛病。大家都知道,向量是 AI 模型理解和处理信息的基础,但维度太高的向量特别占内存,这就会把 KV Cache 给挤爆。以前那种高维向量量化技术虽然能压缩数据,可因为得算一堆乱七八糟的量化常数来存起来,又给内存加了不少负担,这就导致大家在搞长文本或者大规模搜索的时候还是跑不动。为了彻底解决这事儿,谷歌这次拿出了两样硬家伙:量化 Johnson-Lindenstrauss(QJL)和 PolarQuant(这个会在 AISTATS 2026 上亮相),这三项技术一块干活,就把以前那种特别占内存的问题给破解了。 TurboQuant 干活分两步走。第一步先用 PolarQuant 把主要的数据质量给搞上去。这个 PolarQuant 挺特别,它不走寻常路,不用传统的直角坐标系,直接把向量变成极坐标,让数据点落在一个圆的网格上。这样一来就省去了费劲儿的数据归一化步骤,把传统方法那些额外的内存开销给彻底消掉了。第二步再用 QJL 去收拾刚才剩下的那点小误差。QJL 只要花 1 比特的算力就能像纠错机一样把偏差给修正过来,保证算出来的注意力分数准得很。 研究团队拿 Gemma 和 Mistral 这两个开源的大模型试了试水。数据显示,TurboQuant 根本不用再额外去训练或者微调一下,就能把 KV Cache 非常干脆地压缩到 3 比特大小。在“大海捞针”这种长上下文的测试里根本一点精度都不丢,内存占用还能降到 1/6。最夸张的是在 H100 GPU 加速器上跑 4 比特的 TurboQuant 比没量化的 32 比特版本快了整整 8 倍。