DeepSeek最近跟北大清华联手,弄出了个叫DualPath的框架,这能让智能体推理的速度嗖嗖往上蹿。大家平时聊天聊得多了,或者上下文越长,旧的推理架构就受不了了。研究组发现,要是KV-Cache命中率到了95%,那系统跑不动主要是因为数据搬来搬去效率太低。实验也看出来,以前那种把预填充和解码分开的做法,预填充的网卡带宽经常被用得死死的,解码那边的资源却空着没用,这简直就是资源在打架,导致速度上不去。 技术上,这个框架搞了个三组件的活儿。专门分块儿干活儿,每块GPU管一个引擎,负责预填充或者解码;中间有个调度器负责指挥数据怎么跑;还有个管理器管着数据在设备间的传输和存储读写。这么分层搞法既能让各自的活儿干得快,又能让全局的资源利用率最大化。 为了防止两条路抢着用网络带宽,研究组又想了两招。硬件上搞硬隔离,用计算网卡(CNIC)把所有流量都拽进GPUDirect RDMA那条路上走,还得给推理通信留出99%的带宽优先级;软件那边也自适应地看哪个节点的磁盘队列短、Token处理得少,就优先把任务派给谁,这样就从根子上堵住了拥堵的源头。 这事儿的第一作者是北大的博士生吴永彤,他一直盯着大模型基础设施的工程优化这块。现在他在DeepSeek的系统组混着,专门搞下一代推理框架和多硬件平台的性能调优。他既有做学问的底子又有搞产业的经验,所以能准确找到系统优化和大规模部署的痛点在哪儿。