我国科研团队提出统一多模态大模型新范式 为通用智能“看想做”一体化提供路径

当前,人工智能应用已融入日常生活。用户通过智能助手对话、用生成工具创作图像、观看机器人执行动作。但这些功能背后,究竟由独立系统驱动,还是源于同一个"智能大脑"的不同表现?这个问题关乎人工智能发展的根本方向。 日前,北京智源人工智能研究院主导的研究团队在《自然》期刊发表论文,为此问题提供了新的解答。这是我国科研机构主导的大模型原创成果首次在《自然》正刊发表。 论文主要作者、北京智源人工智能研究院理事长黄铁军教授指出,该研究的核心思想是:采用统一架构,让人工智能学会"接龙"。无论处理文字、图像、视频还是生成动作指令,在新开发的Emu模型框架中,所有数据都被转换为统一的"数字积木"表示。模型的任务就像玩歌词接龙一样,持续预测下一个数据单元应如何呈现。 这一思路有深厚的理论基础。2018年,美国OpenAI公司基于"预测下一词"的架构训练出GPT模型,2022年推出ChatGPT,实现了语言大模型的重大突破。黄铁军团队的创新在于,他们推测这种架构不仅适用于语言领域,也能拓展至多种数据模态。通过在统一框架下同时训练图像、文本和视频数据,可以开发出"一脑多能"的多模态大模型。 传统的多模态人工智能系统采用"专用工具组合"的方式。语言理解、图像生成、视频处理等不同任务,分别由各自独立的模型承担。这种分工模式虽然目标明确,但系统间协同成本高,难以形成真正的通用智能。研究团队提出的Emu3模型给出了不同的答案。 Emu3是一个真正的"通才"型人工智能系统。输入文字描述时,它能生成细节丰富、结构合理的图像;提供照片和问题时,它能结合视觉信息进行精准的理解和问答;更更,它还能生成连续的视频片段。用户只需提供视频开头,模型便能逐帧输出后续画面,甚至能为每段画面配上文字说明。 在升级版Emu3.5中,研究团队通过引入大规模长时序视频训练数据,使模型的能力从"预测下一个词元"拓展到"预测下一个状态"。这意味着模型开始学习世界随时间演化的规律,为构建"世界模型"探索了可行的技术路径。黄铁军表示,这项突破首次在同一种简单而统一的建模范式下,系统性地打通了多模态模型中"理解"和"生成"两类能力的分离状态。 从更宏观的角度看,这项成果具有重要的理论意义。它证实了生成式人工智能技术路线的普适性,表明人类已经掌握了让不同智能能力在同一体系内涌现的方式。这为通用人工智能的持续演进奠定了基础,也为我国在这一领域的进一步突破指明了方向。

当人类凝视星空时,既需要望远镜拓展视野,更需要统一理论揭示宇宙本质。这项来自中国科学家的突破启示我们:人工智能的发展正从"功能叠加"迈向"能力融合",其意义不亚于从经典力学到相对论的范式跃迁;在各国竞相布局下一代智能技术的当下,坚持原始创新与体系化攻关,或将成为赢得这场科技革命的关键。