问题——大模型训练“算得快”不等于“训得快” 随着人工智能训练任务从百卡规模迈向千卡以上,集群效率越来越受制于“卡与卡之间如何通信”。分布式训练中,参数同步、梯度汇聚、张量并行等环节需要频繁交换海量数据,互连一旦出现拥塞或延迟抬升,就会放大为全局等待,造成算力闲置。业内测算表明,互连能力不足可能使系统有效利用率显著下降,即便单卡峰值指标再高,也难以转化为端到端训练吞吐。 原因——电互连逼近天花板,通用方案难解规模化难题 一上,板内与机架内高速互连长期依赖以铜缆为主的电互连方案。其优势于延迟低、部署成熟,适用于百卡以内的相对紧凑型集群。但当规模扩大,信号衰减、线缆长度与端口密度等物理约束凸显,跨机柜布线复杂度上升,功耗与散热压力随之加大,带宽增速难以持续匹配算力的快速跃升。 另一上,跨节点与跨机柜场景中,PCIe与InfiniBand等通用互连承担了扩展任务。PCIe具备通用性强、生态成熟等特点,但多跳与大规模分叉场景下,时延与共享带宽问题更为突出;InfiniBand依托RDMA等技术在高性能计算领域应用广泛,但在超大规模训练中仍面临功耗、成本与网络拥塞管理的挑战。对需要毫秒级乃至更低同步开销、并伴随海量参数更新的训练任务来说,“可用”与“高效”之间的差距,正在成为影响训练周期与成本的关键变量。 影响——互连升级牵动产业链,系统能力成为竞争新焦点 互连从“配角”走向“主角”,带来多重产业影响。其一,平台化与一体化趋势加速。谁能提供从加速卡、交换芯片到光模块与整机集群的协同方案,谁就更可能在下一代训练平台标准与生态构建中占据主动。其二,传统电互连路线面临迭代压力。随着规模继续扩张,依赖铜缆的方案需要在带宽密度、能效与可扩展性上持续突破,否则在超大规模场景中竞争力将被削弱。其三,系统级工程能力的重要性上升。互连并非“替换线缆”即可见效,还涉及缓存一致性、拓扑设计、拥塞控制与软件栈适配等系统工程,决定带宽优势能否真正转化为训练效率。 对策——光电融合加快落地,硅光互联成为重要选项 在多方需求推动下,硅光互联被视为突破路径之一,即将更多高带宽链路由电信号转向光信号传输。业内普遍认为,其潜在优势主要体现在三上:一是带宽与密度提升空间更大,单纤可承载更高吞吐,利于满足未来更高并发的数据交换;二是端到端时延与规模扩展更可控,适配更大规模集群的跨机柜、跨机房互联需求;三是能耗与布线压力有望下降,在带宽持续增长的同时,有助于缓解数据中心功耗与散热约束,降低总拥有成本的不确定性。 从产业进展看,网络与光通信企业正推动硅光模块标准化与规模化供给,加速卡与系统厂商也在探索将光引擎与计算加速更紧密地集成。多方协同的关键在于打通“芯片—板级—整机—网络—软件”的全链路优化,既要在硬件侧提升链路能力,也要在软件与调度侧减少通信开销、提升并行效率,形成可持续演进的系统路线图。 前景——“算力竞赛”迈向“系统竞赛”,互连将决定上限与成本曲线 可以预期,未来一段时期内,超大规模训练的竞争将更多体现为系统工程与产业协同的竞争:一看互连技术储备与量产能力,能否在带宽密度、可靠性与成本之间取得平衡;二看系统级协同能力,能否将光互联与加速卡架构、交换网络与软件栈深度适配;三看可扩展性与成本曲线,能否在集群规模持续扩大时仍保持可控的能耗与运维复杂度。随着“互连+架构”成为决定训练效率的核心变量,单纯以芯片峰值指标衡量算力的方式将被更改写。
从电互连到光互连的技术升级,不仅是计算基础设施的进步,更标志着AI产业进入新阶段。在这场决定未来算力格局的竞争中,谁能率先突破技术瓶颈并实现规模化应用,谁就能占据先机。这既是对企业创新能力的考验,也是国家科技实力的体现。