中国大模型技术加速突破 月之暗面创始人提出"参与全球规则制定"战略目标

在全球大模型竞争日趋激烈的背景下,国内头部企业的技术路线与战略规划备受关注。

日前,月之暗面创始人兼首席执行官杨植麟在清华大学基础模型北京市重点实验室主办的AGI-Next前沿峰会上,系统阐述了该公司大模型的技术突破与长期发展战略,为业界提供了新的思考维度。

杨植麟指出,自2019年以来,全球大模型的发展遵循一套核心规律——Scaling Law。

这一规律的核心逻辑是,通过增加算力投入、扩大数据规模、提升模型参数量,能够实现AI能力的持续提升和错误率的不断降低。

这一发现为大模型的长期演进指明了方向,也成为各国企业竞争的主要赛道。

Transformer架构的出现为Scaling Law的实践提供了有力支撑。

杨植麟以直观的比喻说明了其优势所在:相比早期的LSTM架构,Transformer在处理短文本任务时效果相近,但面对长文本和复杂任务时,其在逻辑关系保留上的优势明显,"如同看短文章不需分辨上下,但阅读长篇报告时优势凸显"。

这一特性使Transformer成为适配编程、复杂问题求解等当代应用场景的理想选择。

基于对Scaling Law的深刻理解,月之暗面将技术研发聚焦于两个核心方向:一是让AI"学东西更快",二是让AI"记东西更久"。

为实现这两个目标,公司取得了多项关键技术突破。

在学习效率方面,团队推出了MUON二阶优化器。

相较于行业沿用十年的Adam优化器,这一创新显著提升了AI的学习速度,使得原本需要学习100份资料才能掌握的技能,现在仅需50份便可实现,且学习效果更加扎实。

在解决长文本处理的稳定性问题上,团队研发了Kimi Linear架构,突破了传统技术"记久了就出错"的瓶颈,在处理百万字级长文本时,速度相比传统架构快6至10倍,逻辑稳定性也得到显著提升。

值得关注的是,月之暗面还攻克了MUON优化器训练中的"Logit爆炸"难题,通过动态QK-clip技术,在保证效果的前提下,实现了万亿参数级Kimi K2模型的稳定训练。

作为中国首个真正意义上的Agent模型,Kimi K2具备两三百步工具调用能力,能够独立完成复杂编程和难题推导等任务。

在核心测试基准HLE中,该模型的准确率达到45%,超越了OpenAI同类产品。

从融资状况看,月之暗面已于去年12月完成5亿美元C轮融资,账面现金储备超过100亿元人民币。

公司全球付费用户数月增速达到170%,在K2 Thinking大模型的带动下,海外大模型API收入实现了4倍增长。

这些数据表明,月之暗面在市场竞争中已占据领先地位。

在国际竞争层面,杨植麟提出了一个重要观点:中国技术不仅要好用,更要参与制定规则。

他指出,目前已有多款中国开源模型成为行业测试标准,这表明中国企业在技术创新的基础上,正逐步获得国际话语权。

这一转变对于推动中国大模型产业的长期发展具有重要意义。

面向未来,月之暗面将持续迭代核心技术。

下一代模型将采用Kimi Delta Attention新型线性注意力机制,进一步提升短长文本任务的性能与处理速度。

同时,未来的大模型还将具备更多"审美"和"价值观"维度,打破当前产业同质化发展的局面,为用户提供更具差异化的体验。

关于社会普遍关心的AI安全问题,杨植麟分享了与Kimi对话的思考:AI可能成为人类探索未知的钥匙,能够帮助攻克癌症、解决能源危机、探索宇宙奥秘。

虽然存在风险,但放弃发展无异于放弃人类文明进步的上限。

他表示,团队将在做好风险控制的前提下持续突破,计划未来十年、二十年内陆续推出K4、K5直至K100系列模型,实现大模型技术的持续演进。

大模型发展既是技术竞速,也是治理与标准的竞合。

能否把“更强能力”转化为“更稳供给”,把“技术突破”转化为“产业规则”,将影响其对经济社会的实际贡献。

面向未来,坚持创新与审慎并重、效率与安全并重、应用与标准并重,才能让前沿技术在可控边界内释放更大价值。