deepseek搞了个大模型框架，这能让智能体推理的速度嗖嗖往上蹿

DeepSeek最近跟北大清华联手，弄出了个叫DualPath的框架，这能让智能体推理的速度嗖嗖往上蹿。大家平时聊天聊得多了，或者上下文越长，旧的推理架构就受不了了。研究组发现，要是KV-Cache命中率到了95%，那系统跑不动主要是因为数据搬来搬去效率太低。实验也看出来，以前那种把预填充和解码分开的做法，预填充的网卡带宽经常被用得死死的，解码那边的资源却空着没用，这简直就是资源在打架，导致速度上不去。技术上，这个框架搞了个三组件的活儿。专门分块儿干活儿，每块GPU管一个引擎，负责预填充或者解码；中间有个调度器负责指挥数据怎么跑；还有个管理器管着数据在设备间的传输和存储读写。这么分层搞法既能让各自的活儿干得快，又能让全局的资源利用率最大化。为了防止两条路抢着用网络带宽，研究组又想了两招。硬件上搞硬隔离，用计算网卡（CNIC）把所有流量都拽进GPUDirect RDMA那条路上走，还得给推理通信留出99%的带宽优先级；软件那边也自适应地看哪个节点的磁盘队列短、Token处理得少，就优先把任务派给谁，这样就从根子上堵住了拥堵的源头。这事儿的第一作者是北大的博士生吴永彤，他一直盯着大模型基础设施的工程优化这块。现在他在DeepSeek的系统组混着，专门搞下一代推理框架和多硬件平台的性能调优。他既有做学问的底子又有搞产业的经验，所以能准确找到系统优化和大规模部署的痛点在哪儿。