(问题)近年来,大模型政务服务、金融风控、医疗辅助、工业运维、智能客服等场景加速落地,应用侧对“更快响应、更高并发、更稳定时延”的要求持续抬升。与训练阶段不同,推理阶段往往呈现请求碎片化、上下文增长快、并发不均衡等特点,系统性能瓶颈逐步从算力本身转向数据搬运与资源调度,尤其是推理过程中KV-Cache的加载与传输开销,容易引发I/O拥塞、GPU等待,制约吞吐提升并推高服务成本。 (原因)业内研究表明,在多机多卡推理集群中,模型参数与中间状态的访问路径复杂:一上,为降低延迟与显存占用,常需要对KV-Cache进行分层存储与跨节点调度;另一方面,集群网络带宽不同时间窗口呈现“冷热不均”,高峰期拥塞与低谷期闲置并存。传统加载路径较为单一,难以根据实时负载动态选择更优的数据通道,导致部分带宽资源未被充分利用,最终表现为I/O成为“卡脖子”环节。 (影响)根据上述难题,DeepSeek与北京大学、清华大学研究团队联合发布DualPath推理系统,核心思路是在KV-Cache加载环节引入“双路径”机制:系统依据当前负载与资源状态,动态选择或组合不同的数据加载通道,提升对闲置网络带宽的利用率,减少等待与阻塞,从而提高整体推理吞吐。研究团队在多种规模的GPU集群上进行了验证,并在最大规模达1152张GPU的环境中测试其稳定性与可扩展性。公开数据显示,采用该系统后,离线推理吞吐最高提升1.87倍;在线服务吞吐平均提升1.96倍。涉及的结果表明,在不改变模型能力边界的前提下,通过系统工程与数据路径优化,同样能够显著释放推理性能潜力,为高并发业务提供更可控的成本与时延空间。 (对策)业内人士认为,推理系统优化正从“单点加速”走向“全链路协同”。下一步在推广应用中,需要在三上同步发力:一是围绕不同业务形态建立可复用的性能评测与容量规划方法,避免只在特定负载下“跑分好看”;二是强化与调度系统、存储体系、网络拓扑的协同优化,推动推理引擎对资源状态的感知更精细、决策更及时,提升在真实线上波动场景下的鲁棒性;三是完善工程化落地细节,包括故障回退、可观测性、跨机房部署与安全合规等,确保在关键行业场景中可用、可控、可持续。 (前景)随着智能体应用从“单轮问答”迈向“长链路任务执行”,推理阶段对上下文缓存、工具调用、并行规划与多轮迭代需求将持续增长,带来更复杂的I/O与网络调度挑战。DualPath所代表的方向显示出明确趋势:提升大模型服务能力,不仅依赖模型架构迭代,也需要对底层系统进行面向业务的精细化重构。预计未来一段时期,围绕KV-Cache管理、跨节点高效传输、异构资源协同与端到端成本优化的创新将加速涌现,并推动大模型推理基础设施向更高吞吐、更低时延、更强弹性的方向演进。
技术创新是一个持续迭代的过程;DualPath系统的突破不仅解决了当前的技术瓶颈,也为AI基础设施建设提供了新思路。在人工智能发展的关键阶段,加强基础研究、深化产学研合作至关重要。只有持续创新,才能在国际竞争中占据主动,推动技术进步转化为经济社会发展的动力。