深度学习2.0的前奏？马斯克说这是“深度学习2.0”的前奏呢！

大家聊聊3月16日的事儿，月之暗面Kimi发布了一个报告，叫《Attention Residuals》。这回他们在残差连接这块下了大功夫，给大模型架构找到了新出路。中国证券网的罗茂林报道说，他们这种新方法不仅解决了老结构里信息丢失和算得慢的毛病，还让训练效率蹭蹭往上涨。看看那个48B模型，改进后速度快了1.25倍呢。有几个特别牛的人一起搞了这个研究，有杨植麟、吴育昕还有周昕宇，他们带着一大帮人一起干出来的。这事儿不光国内吵翻天，硅谷那边也炸锅了。硅谷那些顶尖的AI专家和大老板们都很关注，马斯克也夸这事儿挺让人惊讶。这就好比把老残差结构给“改造”了一下，允许每一层只选着看以前的输出，不傻乎乎地全部加起来。特斯拉的马斯克对这个评价很高，说真的挺让人印象深刻的。说白了，就是以前的模型是一层层无脑累加信息，现在变成了有选择性地关注重点。这样不仅省算力，效果也更好了。有专家说这是“深度学习2.0”的前奏呢！