粤港澳大湾区建成首座万卡级智算集群 国产全栈技术实现规模化应用

问题—— 当前,人工智能大模型训练与推理需求快速上升,算力供给能否做到规模化、稳定、成本可控,正成为产业发展的关键因素。一上,大模型参数规模和数据吞吐持续增长,对集群网络时延、资源调度以及软硬件协同提出更高要求;另一方面,中小企业和科研机构普遍面临自建算力投入大、运维复杂、适配成本高等现实压力。粤港澳大湾区创新资源密集、产业链完整,对高质量、可扩展的公共算力底座需求明显,以支撑产业升级和科技创新。 原因—— ,通信运营商机房资源、网络能力、客户覆盖和运维体系上具备优势,云服务企业则在算力平台、模型生态和工程化能力上积累更深。中国电信与阿里云合作建设“真武”万卡智算集群——并选择在韶关数据中心上线——说明了以新型基础设施承载大规模算力供给、通过协同优化提升算力效率的思路。这项目被定位为国家“超大规模智算集群”新基建工程在大湾区的首个落地项目,强调从底层硬件到上层应用的贯通,目标是减少“算力孤岛”和重复建设,提高算力资源的集约化配置水平。 影响—— 据介绍,该集群采用新一代高性能组网架构,端到端数据传输时延可低至微秒级,网络利用率保持在较高水平,使上万张加速芯片能够实现接近“单机化”的协同运行,稳定支撑千亿参数级大模型训练与推理。单机层面,服务器提供较大显存配置和高速互联带宽,可满足主流开源大模型的部署与运行需求,便于企业快速验证并推动业务落地。 对产业生态而言,更直接的变化在于适配与迁移成本下降。平台已适配主流开发框架与工具链,并提供统一编程接口,支持存量业务平滑迁移,减少因底层差异带来的重复开发。同时,平台提供从基础设施到平台能力再到模型服务的全栈能力,用户既可训练专属模型,也可直接调用成熟模型服务。通过面向芯片的工具套件优化,模型环境加载、微调和推理效率提升,“开箱即用”的工程化交付更易实现。 在应用层面,算力价值最终取决于是否“用得起来、用得好”。目前,该集群已在医疗民生、产业创新等场景推进落地:面向基层医疗机构的智能诊疗应用已开展试点;同时为电子信息、先进材料、生物医药、装备制造、低空经济等重点产业提供模型训练、推理与调优服务,目标是缩短研发周期、提高迭代效率,推动新技术与实体经济更紧密结合。对大湾区而言,这类面向行业的公共算力供给,有望继续提升产业链韧性与创新协同能力。 对策—— 为推动算力普惠,涉及的算力资源已通过“广东电信算力超市”上线,探索按卡、按小时计费的零售化服务模式,为中小企业提供更灵活的用算选择。这有助于将算力从“重资产投入”转为“可计量的生产要素”,降低试错成本和使用门槛,带动更多创新主体参与大模型应用开发。同时,统一的平台能力与标准化交付也有利于提升资源利用率与运维效率,减少分散建设造成的浪费。 前景—— 随着大模型应用从通用能力走向行业深水区,算力需求将呈现“规模更大、场景更细、时效更强”的特点。相关上预计将进一步扩容集群,以更高密度的算力供给满足科研机构、企业和政府单位的多样化需求。未来竞争焦点不仅于算力是否充足,更在于是否好用、成本是否可控、运行是否稳定,以及能否在模型、数据、安全与行业知识融合上形成持续能力。以大规模智算集群为牵引,叠加通信网络、云平台与产业场景的协同优化,大湾区有望人工智能产业化、公共服务智能化和新质生产力培育上获得更强支撑。

万卡智算集群在大湾区落地,是新型基础设施建设持续深化的一个缩影,也反映出从技术供给走向产业应用的路径变化。面向未来——算力不仅比拼规模与性能——更考验生态适配、服务能力与普惠程度。让算力资源流动更高效、获取更便捷、供给更贴近产业需求,将为区域创新体系和现代化产业体系建设提供更稳固的支撑。