科大讯飞突破国产算力瓶颈 星火大模型实现自主可控技术突破

问题:大模型竞赛进入“算力—算法—工程”综合比拼阶段。

随着大模型从通用对话延伸至深度推理、复杂任务协作等应用场景,训练和推理对算力供给、集群互联、软件栈成熟度提出更高要求。

与此同时,外部环境变化导致高端芯片与关键环节供给存在不确定性,算力资源约束成为不少企业研发迭代的现实掣肘。

如何在资源受限条件下持续提升模型能力、控制成本并保障关键基础设施安全可控,成为产业必须直面的课题。

原因:一方面,大模型训练需要稳定、规模化的算力支撑,尤其在万卡级集群下,高速互联、通信与计算的协同效率决定了训练是否“跑得起来、跑得更快”。

若互联带宽、通信机制与算子生态不足,训练效率会被显著拉低,形成“堆卡不等于有效算力”的问题。

另一方面,深度推理与长思维链等新范式对训练机制提出更复杂的工程要求,包括强化学习训练的稳定性、推理阶段的高吞吐与低时延,以及MoE(混合专家)模型在全链路训练中对调度、路由与算子优化的依赖。

软硬件协同不成熟将直接抬升训练成本并拖慢迭代节奏。

影响:刘庆峰在会上表示,科大讯飞选择在全国产算力路线下进行训练与工程优化,并在与合作伙伴的协同攻关中逐步提升效率。

他介绍,自2023年5月起,团队围绕万卡高速互联组网、计算通信隐藏、训练推理强交互、高吞吐推理优化、国产算子优化等难点推进突破,使得通用大模型及类深度推理模型训练效率对标国际高端加速卡水平由早期约30%至50%提升至85%至95%以上。

进入2025年,针对长思维链强化学习训练与MoE模型全链路训练等“硬骨头”,相关效率进一步提升:深度推理训练效率对标A800由约30%提升至84%以上;MoE训练效率从阶段性约30%提升至93%,在国产算力平台上实现该方向“从0到1”的跨越。

其同时表示,讯飞星火是当前主流通用大模型中唯一基于全国产算力训练的模型。

这一进展的意义不仅在于单一企业的工程成绩,更在于对产业链的示范作用:当国产算力平台在万卡规模、训练推理一体化、算子生态等关键环节逐步补齐短板,模型能力提升将不再完全受制于外部供给波动,研发节奏与成本结构也有望更可预期。

更重要的是,面向教育、医疗、政务、工业等对数据安全与稳定运行要求较高的领域,自主可控的技术底座将为规模化落地提供基础条件。

对策:从产业发展看,推进自主可控并非简单“替代”,而是软硬件协同的系统工程。

其一,应持续做强国产算力底层能力,提升互联网络、内存带宽与算子性能,推动训练框架、编译器与系统软件共同优化,形成可复制的工程方法论。

其二,应以应用牵引带动生态成熟,通过行业场景倒逼模型在推理效率、可靠性、可解释性与安全合规方面持续改进,形成“数据—模型—应用—迭代”的闭环。

其三,需要构建更开放的协作机制,推动产学研用在关键技术攻关、标准接口、人才培养等方面协同发力,降低生态碎片化带来的重复投入。

其四,还应重视成本与能耗约束,围绕训练成本下降、推理端降本增效与绿色算力建设探索可量化路径,让大模型从“可用”走向“可规模化使用”。

前景:随着国产算力与软件栈持续迭代,大模型竞争焦点将从单纯参数规模转向综合性能、推理能力、工程效率与场景价值。

刘庆峰提出训练成本仍有较大下降空间,这一判断与行业趋势一致:当集群效率提升、推理吞吐优化与算子生态完善形成合力,大模型单位能力成本将继续下降,推动更多中小企业与行业用户以更低门槛接入大模型能力。

可以预期,未来一段时间,围绕深度推理、智能体协作、多模态与行业专用模型的创新将加速,同时对底层算力的稳定供给、可靠运行与安全治理提出更高要求。

谁能在自主可控基础上实现“高效率、低成本、可持续”的技术与生态闭环,谁就更可能在新一轮产业变革中占据主动。

科大讯飞在国产算力训练上的突破,不仅是一家企业的技术进步,更是国内AI产业自主可控能力的重要体现。

从被动受限到主动突破,从跟跑到并跑,这一转变反映了国内企业在关键领域的决心和能力。

当前,全球产业格局面临重塑,掌握自主可控的AI基础设施将成为未来竞争的关键。

科大讯飞的探索为国内产业树立了标杆,也为实现更高水平的科技自立自强开辟了新的可能。