我国科研团队突破智能体推理关键技术大模型处理效率实现倍增

（问题）近年来，大模型政务服务、金融风控、医疗辅助、工业运维、智能客服等场景加速落地，应用侧对“更快响应、更高并发、更稳定时延”的要求持续抬升。与训练阶段不同，推理阶段往往呈现请求碎片化、上下文增长快、并发不均衡等特点，系统性能瓶颈逐步从算力本身转向数据搬运与资源调度，尤其是推理过程中KV-Cache的加载与传输开销，容易引发I/O拥塞、GPU等待，制约吞吐提升并推高服务成本。（原因）业内研究表明，在多机多卡推理集群中，模型参数与中间状态的访问路径复杂：一上，为降低延迟与显存占用，常需要对KV-Cache进行分层存储与跨节点调度；另一方面，集群网络带宽不同时间窗口呈现“冷热不均”，高峰期拥塞与低谷期闲置并存。传统加载路径较为单一，难以根据实时负载动态选择更优的数据通道，导致部分带宽资源未被充分利用，最终表现为I/O成为“卡脖子”环节。（影响）根据上述难题，DeepSeek与北京大学、清华大学研究团队联合发布DualPath推理系统，核心思路是在KV-Cache加载环节引入“双路径”机制：系统依据当前负载与资源状态，动态选择或组合不同的数据加载通道，提升对闲置网络带宽的利用率，减少等待与阻塞，从而提高整体推理吞吐。研究团队在多种规模的GPU集群上进行了验证，并在最大规模达1152张GPU的环境中测试其稳定性与可扩展性。公开数据显示，采用该系统后，离线推理吞吐最高提升1.87倍；在线服务吞吐平均提升1.96倍。涉及的结果表明，在不改变模型能力边界的前提下，通过系统工程与数据路径优化，同样能够显著释放推理性能潜力，为高并发业务提供更可控的成本与时延空间。（对策）业内人士认为，推理系统优化正从“单点加速”走向“全链路协同”。下一步在推广应用中，需要在三上同步发力：一是围绕不同业务形态建立可复用的性能评测与容量规划方法，避免只在特定负载下“跑分好看”；二是强化与调度系统、存储体系、网络拓扑的协同优化，推动推理引擎对资源状态的感知更精细、决策更及时，提升在真实线上波动场景下的鲁棒性；三是完善工程化落地细节，包括故障回退、可观测性、跨机房部署与安全合规等，确保在关键行业场景中可用、可控、可持续。（前景）随着智能体应用从“单轮问答”迈向“长链路任务执行”，推理阶段对上下文缓存、工具调用、并行规划与多轮迭代需求将持续增长，带来更复杂的I/O与网络调度挑战。DualPath所代表的方向显示出明确趋势：提升大模型服务能力，不仅依赖模型架构迭代，也需要对底层系统进行面向业务的精细化重构。预计未来一段时期，围绕KV-Cache管理、跨节点高效传输、异构资源协同与端到端成本优化的创新将加速涌现，并推动大模型推理基础设施向更高吞吐、更低时延、更强弹性的方向演进。

技术创新是一个持续迭代的过程；DualPath系统的突破不仅解决了当前的技术瓶颈，也为AI基础设施建设提供了新思路。在人工智能发展的关键阶段，加强基础研究、深化产学研合作至关重要。只有持续创新，才能在国际竞争中占据主动，推动技术进步转化为经济社会发展的动力。

我国科研团队突破智能体推理关键技术 大模型处理效率实现倍增

我国科研团队突破智能体推理关键技术大模型处理效率实现倍增