NVIDIA搞出了个KVTC的黑科技,最高能把内存用量砍到原来的1/20,这下AI硬件的成本怕是要大幅跳水了。大家伙儿都知道,现在做大型语言模型处理长对话的时候,老因为占内存太多卡得慌。NVIDIA的研究员最近就想出个招儿,叫KVTC,也就是把KV缓存里的东西高效压缩。这一招不用改模型架构就能直接用,内存需求最高能降20倍。这么一来,企业用AI部署的时候硬件开销能少不少,响应速度也会变快。 咱们平时说的KV缓存就像是模型的“短期记忆”,专门存对话里那些关键的Key和Value,好让模型不用一遍遍重复算老东西。可要是对话内容多了,这缓存可能就膨胀成了好几个GB,把GPU的内存挤得满满当当,推理速度就跟不上了。NVIDIA的高级工程师Adrian Lancucki也说了,推理性能不行的主要原因不是算力不够,而是GPU内存不够用。以前只能把不用的缓存挪到CPU或者硬盘里存着,但这样一折腾又会多不少延迟。 KVTC这门技术学了JPEG那种压缩图片的法子。它用“主成分分析、自适应量化、熵编码”这三步走法,精准抓住KV缓存里数据的高度相关性,把那些多余的、重复的信息给剃掉了。这技术还有个好处就是“非侵入式”,企业把它接到现有的系统里就行,连代码和参数都不用调。实测数据也挺猛的,不管是15亿还是700亿参数的大模型(像Llama 3系列、R1-Qwen 2.5这种),用KVTC把内存压到20倍后,准确率也就掉了1%左右;要是用传统法子压到5倍,性能就会掉得很明显。 在H100 GPU上跑实测的时候,面对8000个Token的提示词,用了KVTC以后首次响应时间从原来的3秒一下子缩短到了380毫秒,足足快了8倍。这种在编程助手、迭代式推理这种需要聊很久的场景里特别好用;要是短对话内容不多,缓存本来就小,那压缩效果自然也就没那么明显了。 NVIDIA打算把KVTC集成进Dynamo框架的KV块管理器里,还能跟vLLM这些主流开源引擎兼容。行内人觉得以后AI对话越来越长,这种标准化的压缩技术肯定是个关键基础设施,它的普及程度说不定能像以前的视频压缩技术改变多媒体行业那样牛。