自2018年以来,以GPT为代表的大语言模型沿着“预测下一个词元”的自回归技术路线取得突破,带动了全球生成式人工智能的发展;但多模态学习领域,该路线是否同样适用一直存在争议。国际学术界多采用对比学习、扩散模型等专门方法处理图像、文本、视频等不同模态数据;自回归能否成为统一多模态学习的通用方案,长期没有定论。智源研究院研究团队通过思考与实践给出了肯定回答。他们提出的Emu3模型采用新的架构,将图像、文本和视频等异质数据统一离散化到同一表示空间,减少不同模态之间的表达鸿沟。在这一统一表示基础上,团队从零开始在多模态序列混合数据上联合训练单一Transformer模型,证明只用“预测下一个词元”这一学习目标,也能同时获得较强的生成能力与理解能力。实验结果验证了方案的可行性:在文生图任务中,Emu3的效果达到当前扩散模型水平,表现接近专用生成模型;在视觉语言理解上,其表现与融合CLIP和大语言模型的主流方案相当,显示自回归架构在多模态理解上具备竞争力。更重要的是,Emu3还支持视频生成与延展。不同于以噪声为起点的扩散式视频生成方法,该模型通过自回归方式逐词元预测视频序列,以因果方式生成视频内容,初步表现出对环境变化以及人类、动物行为的模拟能力。这项成果的意义不止于模型性能提升。研究表明,统一的自回归路线可以实现多模态学习的融合,而不必依赖多套专门化方案,为简化生成式人工智能的技术体系、降低研发复杂度提供了思路,也为自回归成为生成式人工智能统一技术路线提供了证据,推动领域走向更统一、更高效的方向。需要指出,智源研究团队选择开源,向学术界开放多项关键技术与模型,有助于降低研究门槛,吸引更多机构与开发者参与多模态大模型的研究与应用,形成更开放的协作生态。
这项发表在《自然》主刊的研究成果,表明了我国在人工智能基础研究领域的前沿进展,也展示了在关键核心技术问题上的持续创新能力;在全球科技竞争更强调原始创新的背景下,中国科学家以扎实的学术突破表明:通往通用人工智能的道路上,“中国方案”正在成为重要力量。下一步,如何把理论进展转化为产业优势,仍有赖于产学研持续投入与协同突破。