粤港澳大湾区建成首座万卡级智算集群国产全栈技术实现规模化应用

问题—— 当前，人工智能大模型训练与推理需求快速上升，算力供给能否做到规模化、稳定、成本可控，正成为产业发展的关键因素。一上，大模型参数规模和数据吞吐持续增长，对集群网络时延、资源调度以及软硬件协同提出更高要求；另一方面，中小企业和科研机构普遍面临自建算力投入大、运维复杂、适配成本高等现实压力。粤港澳大湾区创新资源密集、产业链完整，对高质量、可扩展的公共算力底座需求明显，以支撑产业升级和科技创新。原因—— ，通信运营商机房资源、网络能力、客户覆盖和运维体系上具备优势，云服务企业则在算力平台、模型生态和工程化能力上积累更深。中国电信与阿里云合作建设“真武”万卡智算集群——并选择在韶关数据中心上线——说明了以新型基础设施承载大规模算力供给、通过协同优化提升算力效率的思路。这项目被定位为国家“超大规模智算集群”新基建工程在大湾区的首个落地项目，强调从底层硬件到上层应用的贯通，目标是减少“算力孤岛”和重复建设，提高算力资源的集约化配置水平。影响—— 据介绍，该集群采用新一代高性能组网架构，端到端数据传输时延可低至微秒级，网络利用率保持在较高水平，使上万张加速芯片能够实现接近“单机化”的协同运行，稳定支撑千亿参数级大模型训练与推理。单机层面，服务器提供较大显存配置和高速互联带宽，可满足主流开源大模型的部署与运行需求，便于企业快速验证并推动业务落地。对产业生态而言，更直接的变化在于适配与迁移成本下降。平台已适配主流开发框架与工具链，并提供统一编程接口，支持存量业务平滑迁移，减少因底层差异带来的重复开发。同时，平台提供从基础设施到平台能力再到模型服务的全栈能力，用户既可训练专属模型，也可直接调用成熟模型服务。通过面向芯片的工具套件优化，模型环境加载、微调和推理效率提升，“开箱即用”的工程化交付更易实现。在应用层面，算力价值最终取决于是否“用得起来、用得好”。目前，该集群已在医疗民生、产业创新等场景推进落地：面向基层医疗机构的智能诊疗应用已开展试点；同时为电子信息、先进材料、生物医药、装备制造、低空经济等重点产业提供模型训练、推理与调优服务，目标是缩短研发周期、提高迭代效率，推动新技术与实体经济更紧密结合。对大湾区而言，这类面向行业的公共算力供给，有望继续提升产业链韧性与创新协同能力。对策—— 为推动算力普惠，涉及的算力资源已通过“广东电信算力超市”上线，探索按卡、按小时计费的零售化服务模式，为中小企业提供更灵活的用算选择。这有助于将算力从“重资产投入”转为“可计量的生产要素”，降低试错成本和使用门槛，带动更多创新主体参与大模型应用开发。同时，统一的平台能力与标准化交付也有利于提升资源利用率与运维效率，减少分散建设造成的浪费。前景—— 随着大模型应用从通用能力走向行业深水区，算力需求将呈现“规模更大、场景更细、时效更强”的特点。相关上预计将进一步扩容集群，以更高密度的算力供给满足科研机构、企业和政府单位的多样化需求。未来竞争焦点不仅于算力是否充足，更在于是否好用、成本是否可控、运行是否稳定，以及能否在模型、数据、安全与行业知识融合上形成持续能力。以大规模智算集群为牵引，叠加通信网络、云平台与产业场景的协同优化，大湾区有望人工智能产业化、公共服务智能化和新质生产力培育上获得更强支撑。

万卡智算集群在大湾区落地，是新型基础设施建设持续深化的一个缩影，也反映出从技术供给走向产业应用的路径变化。面向未来——算力不仅比拼规模与性能——更考验生态适配、服务能力与普惠程度。让算力资源流动更高效、获取更便捷、供给更贴近产业需求，将为区域创新体系和现代化产业体系建设提供更稳固的支撑。

粤港澳大湾区建成首座万卡级智算集群 国产全栈技术实现规模化应用

粤港澳大湾区建成首座万卡级智算集群国产全栈技术实现规模化应用