中国17岁高中生参与突破性AI研究关键技术获国际学界高度评价

问题—— 大模型训练与推理对算力、显存和通信带宽要求极高。自2017年Transformer架构提出以来，“残差连接”一直是深度网络稳定训练的关键组件之一。但随着模型规模持续扩大，传统残差结构在信息传递效率、训练稳定性与资源开销之间的取舍空间越来越小。如何在不明显增加成本的情况下改进关键结构，成为大模型底层创新的重要方向。原因—— 近期，“月之暗面”Kimi团队发布论文《Attention Residuals》，提出用“注意力残差”重新设计残差连接机制，使训练过程中的表征更新更具针对性。论文署名信息显示，陈广宇与张宇、苏剑林为共同第一作者。公开资料显示，陈广宇在深圳成长，目前就读于深圳贝赛思体系学校高中阶段。共同第一作者之一苏剑林在回顾文章中提到，陈广宇与张宇提出“Block AttnRes（分块注意力残差）”方案，并针对新结构可能带来的显存、计算与通信额外开销，给出了工程化、可扩展的优化思路，在尽量保留效果的同时降低成本，为更大规模训练打下基础。影响—— 业内人士认为，相比单纯扩大参数规模，结构性创新更可能决定模型效率的上限。论文将该方法用于解释模型“选择性记忆”能力提升，并给出训练效率可提升约25%的描述。论文发布后，有海外科技从业者在社交平台转发并评价，认为其对大模型训练范式具有启发意义。此前在英伟达GTC 2026会议上，“月之暗面”对应的负责人介绍模型扩展路径时，也将“注意力残差”列为底层重构的重要进展之一。多方关注表明，大模型基础能力的竞争正在从“算力—数据”拓展到“架构—算法—系统”的协同创新。对策—— 从创新到产业落地仍需在多个环节持续推进：一是加强可复现实验与开源评测，在不同模型规模、不同任务场景下开展系统对比，形成更可验证的技术共识；二是强化算法与系统协同优化，在编译器、并行策略和通信优化等层面适配新结构，减少“算法有效但系统代价过高”的落地阻力；三是完善青年科研人才培养与支持机制，鼓励在校学生参与高水平科研实践，在合规前提下拓宽产学研合作通道；四是保持对基础研究的长期投入，围绕注意力机制、记忆机制与稳定训练等方向持续迭代。前景—— 目前，大模型发展进入“效率优先”与“结构创新”并行阶段。对残差、注意力、位置编码等基础组件的细微改动，可能引发训练曲线、扩展规律与部署成本的系统性变化。随着国内企业在底层算法与工程体系上的积累不断加深，加之人才梯队持续年轻化，我国在大模型核心技术环节实现更多原创突破具备现实条件。陈广宇在社交平台表示将回归学业与研究本职，也从侧面反映出青年科研参与者对长期投入的重视。

从一篇论文引发的讨论可以看到，大模型正在从单纯“堆规模”转向“重结构、重效率、重落地”的新阶段。青年人才在真实科研问题中承担关键任务，既是个人成长的体现，也反映出创新生态的活跃度。面向未来，只有在基础理论突破、工程能力提升与开放协作机制上持续推进，才能让更多关键环节的原创成果不断出现，并转化为可验证、可复制、可应用的产业进步。

中国17岁高中生参与突破性AI研究 关键技术获国际学界高度评价

中国17岁高中生参与突破性AI研究关键技术获国际学界高度评价