你听说了吗,中国在AI领域又有了大突破,这次是把多模态AI给搞通了。北京智源研究院把论文投到了国际顶尖的《自然》杂志上,这次可是正刊的位置,标志着咱们自己搞出来的大模型研究成果第一次登榜。时间点是2025年1月,题目是“通过预测下一个词元进行多模态学习”,相当硬核。 这个成果背后的思路挺厉害,以前搞AI大多是“分而治之”,图像有图像的模型,文本有文本的模型,彼此之间沟通困难。北京智源的团队另辟蹊径,直接借鉴了让GPT系列大获成功的那种“预测下一个词元”(Next-token prediction, NTP)的方法,把这个自回归的理念推广到了多模态数据中。 他们发明了一个叫Emu3的模型,这个模型有个特点:不管是文字、图片还是视频,全都变成统一的序列来处理。就像给AI定了个规矩,只要学会怎么预测下一个元素就行。实验结果也挺给力,在图像生成、图文对话这些任务上表现不输那些专用的复杂模型。 关键是这种方法非常简洁又通用。《自然》杂志的编辑都说了,这为构建统一的多模态智能系统指明了方向。这就好比是找到了一条通向真正通用人工智能的“主干道”,省去了很多复杂步骤,未来的AI系统可能会因此变得更容易训练。 更有意思的是他们的迭代版本Emu3.5已经开始能预测物理世界的变化了,比如视频里的场景怎么发展。这说明这项技术不光能用来生成数字内容,还在往能够与现实世界互动的“世界模型”上走。 这个突破不是突然冒出来的。北京智源研究院从2020年就开始搞“悟道”大模型计划了,一直坚持做原创性的基础研究。到了2025年6月他们发布了“悟界”新一代大模型系列成果,技术路线从Emu多模态世界模型、RoboBrain跨本体具身大脑一直延伸到了全原子生命模拟等等。 这次在《自然》发表就是这些年布局的成果。这不仅是技术上的胜利,更是向世界证明中国科研人员有能力挑战现有范式、开辟统一简洁的技术路径。这不仅给中国在AI基础研究里注入了信心,也为全球的AI发展提供了新的思路。