我国科研机构主导多模态大模型成果刊发《自然》正刊，自回归路线有望实现统一突破

自2018年以来，以GPT为代表的大语言模型沿着“预测下一个词元”的自回归技术路线取得突破，带动了全球生成式人工智能的发展；但多模态学习领域，该路线是否同样适用一直存在争议。国际学术界多采用对比学习、扩散模型等专门方法处理图像、文本、视频等不同模态数据；自回归能否成为统一多模态学习的通用方案，长期没有定论。智源研究院研究团队通过思考与实践给出了肯定回答。他们提出的Emu3模型采用新的架构，将图像、文本和视频等异质数据统一离散化到同一表示空间，减少不同模态之间的表达鸿沟。在这一统一表示基础上，团队从零开始在多模态序列混合数据上联合训练单一Transformer模型，证明只用“预测下一个词元”这一学习目标，也能同时获得较强的生成能力与理解能力。实验结果验证了方案的可行性：在文生图任务中，Emu3的效果达到当前扩散模型水平，表现接近专用生成模型；在视觉语言理解上，其表现与融合CLIP和大语言模型的主流方案相当，显示自回归架构在多模态理解上具备竞争力。更重要的是，Emu3还支持视频生成与延展。不同于以噪声为起点的扩散式视频生成方法，该模型通过自回归方式逐词元预测视频序列，以因果方式生成视频内容，初步表现出对环境变化以及人类、动物行为的模拟能力。这项成果的意义不止于模型性能提升。研究表明，统一的自回归路线可以实现多模态学习的融合，而不必依赖多套专门化方案，为简化生成式人工智能的技术体系、降低研发复杂度提供了思路，也为自回归成为生成式人工智能统一技术路线提供了证据，推动领域走向更统一、更高效的方向。需要指出，智源研究团队选择开源，向学术界开放多项关键技术与模型，有助于降低研究门槛，吸引更多机构与开发者参与多模态大模型的研究与应用，形成更开放的协作生态。

这项发表在《自然》主刊的研究成果，表明了我国在人工智能基础研究领域的前沿进展，也展示了在关键核心技术问题上的持续创新能力；在全球科技竞争更强调原始创新的背景下，中国科学家以扎实的学术突破表明：通往通用人工智能的道路上，“中国方案”正在成为重要力量。下一步，如何把理论进展转化为产业优势，仍有赖于产学研持续投入与协同突破。