今天给大家讲个故事,主角是AI研究的新老大杨植麟。北京时间3月18日,杨总在英伟达GTC 2026的舞台上,大聊了一通Transformer的重构计划。有一张Kimi Scaling的路线图,把在场的大家伙儿都给震住了。 他说啊,现在光靠堆算力根本没戏,得把优化器、注意力机制和残差连接这些底层的柱子都给拆了重搭。这回他把KimiK2.5背后的技术路线图给全抖搂出来了,总结成三个点:一个是Token效率,一个是长上下文,还有一个是AgentSwarms智能体集群。这玩意儿听起来就像是从单兵作战变成了集团军作战。 前几天月之暗面搞了篇大论文,题目叫《Attention Residuals》,把AI底层的架构给动了个大手术。现在的人还在那堆算力,杨总就不一样,他直接指出了Scaling Law的局限,说咱们不能再走老路了。他觉得现在的很多标准都是老古董,早该淘汰了。 于是Kimi把手术刀拿了出来:先是把全注意力机制给挑战了一把,弄出了基于KDA架构的Kimi Linear,彻底打破了“所有层都得用全注意力”的老教条。接着又重塑了残差连接,引入了Attention Residuals方案。这一改动太猛了,连Karpathy和马斯克都坐不住了。Karpathy感叹说咱们对Attention is All You Need的理解还不够深,马斯克则直接评价说这事儿干得漂亮。 杨总还说了个挺深刻的道理:以前大家发表个新想法就不错了,谁也没那个算力去做大规模的实验验证。但现在不一样了,有了足够的资源和“缩放阶梯”,咱们可以做更严谨的实验了。 说到估值这块儿,速度那是相当快。不到半年的时间,估值从43亿美元跳到了180亿美元,相当于人民币1200亿元左右。这一轮融资是10亿美元的投前估值;一个月前刚完成7亿美元融资的时候是100亿美元估值;去年底那轮5亿美元融资时才43亿美元呢。 杨植麟说以后还会继续坚持自研加开源的路子,把MuonClip、Kimi Linear这些底层创新都贡献给社区。看来月之暗面这次真的是把中国AI Lab的硬核实力给彻底展现出来了!