我国科研团队破解大模型训练稳定性难题 新型神经网络架构性能提升明显

新年伊始,中国人工智能企业DeepSeek在国际学术平台发布了最新研究成果,提出了一套名为mHC的神经网络架构优化方案;该创新举措再次引发业界广泛关注,被普遍认为是对现有大模型训练体系的重要突破。 问题的提出源于当前大模型开发中的核心瓶颈。长期以来,业界沿用近十年的ResNet残差神经网络架构已成为大模型训练的标准范式。去年年底,字节跳动豆包团队曾提出Hyper-Connections(HC)架构,试图通过拓宽残差连接、增加连接模式多样性来提升模型性能。然而,这一方案在理论验证和小规模实验中表现良好,但在实际的大规模模型训练中暴露出致命弱点:残差连接通道间的交互极易引发信号爆炸或消失现象——导致训练过程失控——可扩展性严重受限,成本随之大幅上升。 DeepSeek的创新之处在于引入了流形约束机制。该方案通过Sinkhorn-Knopp算法,将残差映射矩阵投影到由双随机矩阵构成的Birkhoff多面体上,相当于为容易失控的信号传播过程加装了稳定装置。这一设计确保信号在多层网络传递中受到严格约束,保持均值不变、总量守恒,从而从根本上解决了HC架构在大规模训练中的稳定性和可扩展性问题。 从实验数据看,效果显著。在270亿参数级别的训练中,原有HC架构在训练进行到约1.2万步时,信号放大倍数已急剧增长至3000倍,导致训练完全崩溃。而采用mHC架构的同等训练中,信号放大倍数仅为1.6倍,全程保持平稳运行。同时,相比传统架构,mHC在训练损失上显著下降,在BBH数据集的复杂推理任务和DROP数据集的阅读理解任务上,性能均提升超过2个百分点。 值得关注的是,DeepSeek在设计mHC时充分考虑了实际应用中的成本因素。研究团队同步开发了高效的基础设施优化方案,使得在残差通道扩展四倍的情况下,额外的训练时间开销仅为6.7%,充分反映了"高性价比、效率优先"的设计理念。这一特点对于降低人工智能产业的整体成本很重要。 从学术角度看,这项研究汇聚了多位顶尖人才的智慧。论文作者署名达19人,核心作者包括来自清华大学高等研究院的博士研究员,他们曾参与微软亚洲研究院的联合培养项目。DeepSeek创始人梁文锋在论文中署名,这反映了公司对基础研究的重视。梳理DeepSeek过去一年的学术成果可以发现,该公司已发布23篇重要论文,涵盖MoE、Coder、R1、V3等多个关键技术节点,显示出持续的创新能力。 从产业影响看,mHC架构的推出可能引发人工智能芯片生态的连锁反应。更稳定、更高效的训练方案意味着对计算芯片的需求特性将发生变化,这将直接影响芯片设计、制造和应用的整个产业链。英伟达等芯片厂商需要密切关注这类底层架构创新,及时调整产品策略以适应新的市场需求。同时,这也为国内芯片企业提供了新的发展机遇。

大模型竞赛已从单纯追求参数规模的阶段,转向兼顾稳定性、效率与产业落地的新阶段。无论mHC最终在行业中的普及程度如何,其所提示的方向值得重视:基础研究应更加面向工程可用性,产业创新也应更加重视可复现与可扩展。只有让架构、算法、工程与生态形成合力,才能把模型能力的提升转化为实实在在的生产力增长。