我国科研团队破解大模型训练稳定性难题新型神经网络架构性能提升明显

新年伊始，中国人工智能企业DeepSeek在国际学术平台发布了最新研究成果，提出了一套名为mHC的神经网络架构优化方案；该创新举措再次引发业界广泛关注，被普遍认为是对现有大模型训练体系的重要突破。问题的提出源于当前大模型开发中的核心瓶颈。长期以来，业界沿用近十年的ResNet残差神经网络架构已成为大模型训练的标准范式。去年年底，字节跳动豆包团队曾提出Hyper-Connections（HC）架构，试图通过拓宽残差连接、增加连接模式多样性来提升模型性能。然而，这一方案在理论验证和小规模实验中表现良好，但在实际的大规模模型训练中暴露出致命弱点：残差连接通道间的交互极易引发信号爆炸或消失现象——导致训练过程失控——可扩展性严重受限，成本随之大幅上升。 DeepSeek的创新之处在于引入了流形约束机制。该方案通过Sinkhorn-Knopp算法，将残差映射矩阵投影到由双随机矩阵构成的Birkhoff多面体上，相当于为容易失控的信号传播过程加装了稳定装置。这一设计确保信号在多层网络传递中受到严格约束，保持均值不变、总量守恒，从而从根本上解决了HC架构在大规模训练中的稳定性和可扩展性问题。从实验数据看，效果显著。在270亿参数级别的训练中，原有HC架构在训练进行到约1.2万步时，信号放大倍数已急剧增长至3000倍，导致训练完全崩溃。而采用mHC架构的同等训练中，信号放大倍数仅为1.6倍，全程保持平稳运行。同时，相比传统架构，mHC在训练损失上显著下降，在BBH数据集的复杂推理任务和DROP数据集的阅读理解任务上，性能均提升超过2个百分点。值得关注的是，DeepSeek在设计mHC时充分考虑了实际应用中的成本因素。研究团队同步开发了高效的基础设施优化方案，使得在残差通道扩展四倍的情况下，额外的训练时间开销仅为6.7%，充分反映了"高性价比、效率优先"的设计理念。这一特点对于降低人工智能产业的整体成本很重要。从学术角度看，这项研究汇聚了多位顶尖人才的智慧。论文作者署名达19人，核心作者包括来自清华大学高等研究院的博士研究员，他们曾参与微软亚洲研究院的联合培养项目。DeepSeek创始人梁文锋在论文中署名，这反映了公司对基础研究的重视。梳理DeepSeek过去一年的学术成果可以发现，该公司已发布23篇重要论文，涵盖MoE、Coder、R1、V3等多个关键技术节点，显示出持续的创新能力。从产业影响看，mHC架构的推出可能引发人工智能芯片生态的连锁反应。更稳定、更高效的训练方案意味着对计算芯片的需求特性将发生变化，这将直接影响芯片设计、制造和应用的整个产业链。英伟达等芯片厂商需要密切关注这类底层架构创新，及时调整产品策略以适应新的市场需求。同时，这也为国内芯片企业提供了新的发展机遇。

大模型竞赛已从单纯追求参数规模的阶段，转向兼顾稳定性、效率与产业落地的新阶段。无论mHC最终在行业中的普及程度如何，其所提示的方向值得重视：基础研究应更加面向工程可用性，产业创新也应更加重视可复现与可扩展。只有让架构、算法、工程与生态形成合力，才能把模型能力的提升转化为实实在在的生产力增长。

我国科研团队破解大模型训练稳定性难题 新型神经网络架构性能提升明显

我国科研团队破解大模型训练稳定性难题新型神经网络架构性能提升明显