深度学习2.0的前奏?马斯克说这是“深度学习2.0”的前奏呢!

大家聊聊3月16日的事儿,月之暗面Kimi发布了一个报告,叫《Attention Residuals》。这回他们在残差连接这块下了大功夫,给大模型架构找到了新出路。中国证券网的罗茂林报道说,他们这种新方法不仅解决了老结构里信息丢失和算得慢的毛病,还让训练效率蹭蹭往上涨。看看那个48B模型,改进后速度快了1.25倍呢。 有几个特别牛的人一起搞了这个研究,有杨植麟、吴育昕还有周昕宇,他们带着一大帮人一起干出来的。这事儿不光国内吵翻天,硅谷那边也炸锅了。硅谷那些顶尖的AI专家和大老板们都很关注,马斯克也夸这事儿挺让人惊讶。这就好比把老残差结构给“改造”了一下,允许每一层只选着看以前的输出,不傻乎乎地全部加起来。 特斯拉的马斯克对这个评价很高,说真的挺让人印象深刻的。说白了,就是以前的模型是一层层无脑累加信息,现在变成了有选择性地关注重点。这样不仅省算力,效果也更好了。有专家说这是“深度学习2.0”的前奏呢!