问题:大模型训练对算力基础设施提出高强度、长周期、强并行的要求。随着参数规模和数据量持续增长,训练任务常常需要跨千卡集群协同,涉及系统调度、分布式框架、算子加速、通信协议等多个层面。现实挑战于,国产软硬件生态长期存在适配分散、端到端稳定性验证不足等问题,影响规模化部署与工程落地。 原因:一上,大模型训练链路长、组件多,任何环节出现兼容或性能瓶颈,都可能引发训练中断、指标偏移或效率下降;另一方面,异构集群中不同架构芯片算力形态、通信特性、驱动与编译栈等差异明显,缺少统一的软件栈与调度体系时,资源难以高效组织与协同。同时,训练往往持续数天甚至更久,对软硬件稳定性提出接近工业级的要求,必须通过真实任务进行系统验证。 影响:智源研究院此次完成的统一技术栈验证,覆盖六款芯片、三种模型架构,并在同构与异构千卡级集群上开展全流程测试,表明“统一调度—分布式训练—计算加速—通信协同”等关键链路已形成可运行、可复用的工程路径。作为参与方之一,摩尔线程旗舰级训推一体GPU智算卡MTT S5000完成对FlagOS训练软件栈的完整适配,覆盖系统调度框架、分布式训练框架、加速计算库、通信协议等核心组件,更打通硬件与软件的协同链路。测试结果显示,该卡在连续6天、累计超过14000步训练中保持零中断,体现出长稳训练场景下的可靠性。 在模型效果上,围绕Qwen3-0.6B语言模型开展的1T Tokens从头训练结果显示,训练损失曲线与基准模型高度一致,平均相对误差控制0.82%以内;在标准下游任务评估中,关键指标较行业标杆提升1.65个百分点。涉及的结果表明,国产全功能GPU不仅具备“可训练”的工程可行性,也在训练一致性与效果验证上获得了可量化的实证依据,有助于提升产业界对国产算力开展大规模训练的信心,并为算力国产化替代提供参考样本。 对策:面向大模型时代的算力建设,业内普遍认为单点性能重要,但系统能力更决定规模化落地效果。此次验证采用异构计算架构,由FlagOS系统调度决策框架对不同芯片统一编排,在统一软件栈支撑下完成千卡级并行训练,说明了以软件牵引、通过标准化接口与工程化工具链提升兼容性的路径。下一步建议从三上持续推进:其一,提升核心组件的可移植与可观测能力,完善训练监控、故障自愈与性能诊断机制,降低大规模训练运维门槛;其二,改进通信与并行策略,提高异构资源利用率与集群效率;其三,以真实任务与开放评测推动生态协同,沉淀可复制的部署模板与最佳实践,推动从“能跑”向“跑得稳、跑得快、跑得省”演进。 前景:当前,全球人工智能竞争正从算法比拼扩展到算力基础设施与工程体系能力的综合较量。统一技术栈与异构协同路线,为构建多元算力生态提供了新的可行路径,也为提升供应链韧性、推动关键基础软件与硬件协同发展拓展空间。随着更多大模型训练任务国产软硬件组合上完成验证并在行业场景中规模化部署,国内算力基础设施有望在稳定性、效率与成本控制上形成更系统的优势,从而支撑更广泛的科研创新与产业应用落地。
此次技术验证不仅验证了国产GPU大模型训练中的应用潜力,也展示了国内科技企业在关键技术攻关与工程化验证上的能力。面对日益激烈的全球科技竞争,坚持自主创新并完善产业生态,将是推动人工智能持续发展的重要路径。