我国科研团队提出统一多模态大模型新范式为通用智能“看想做”一体化提供路径

当前，人工智能应用已融入日常生活。用户通过智能助手对话、用生成工具创作图像、观看机器人执行动作。但这些功能背后，究竟由独立系统驱动，还是源于同一个"智能大脑"的不同表现？这个问题关乎人工智能发展的根本方向。日前，北京智源人工智能研究院主导的研究团队在《自然》期刊发表论文，为此问题提供了新的解答。这是我国科研机构主导的大模型原创成果首次在《自然》正刊发表。论文主要作者、北京智源人工智能研究院理事长黄铁军教授指出，该研究的核心思想是：采用统一架构，让人工智能学会"接龙"。无论处理文字、图像、视频还是生成动作指令，在新开发的Emu模型框架中，所有数据都被转换为统一的"数字积木"表示。模型的任务就像玩歌词接龙一样，持续预测下一个数据单元应如何呈现。这一思路有深厚的理论基础。2018年，美国OpenAI公司基于"预测下一词"的架构训练出GPT模型，2022年推出ChatGPT，实现了语言大模型的重大突破。黄铁军团队的创新在于，他们推测这种架构不仅适用于语言领域，也能拓展至多种数据模态。通过在统一框架下同时训练图像、文本和视频数据，可以开发出"一脑多能"的多模态大模型。传统的多模态人工智能系统采用"专用工具组合"的方式。语言理解、图像生成、视频处理等不同任务，分别由各自独立的模型承担。这种分工模式虽然目标明确，但系统间协同成本高，难以形成真正的通用智能。研究团队提出的Emu3模型给出了不同的答案。 Emu3是一个真正的"通才"型人工智能系统。输入文字描述时，它能生成细节丰富、结构合理的图像；提供照片和问题时，它能结合视觉信息进行精准的理解和问答；更更，它还能生成连续的视频片段。用户只需提供视频开头，模型便能逐帧输出后续画面，甚至能为每段画面配上文字说明。在升级版Emu3.5中，研究团队通过引入大规模长时序视频训练数据，使模型的能力从"预测下一个词元"拓展到"预测下一个状态"。这意味着模型开始学习世界随时间演化的规律，为构建"世界模型"探索了可行的技术路径。黄铁军表示，这项突破首次在同一种简单而统一的建模范式下，系统性地打通了多模态模型中"理解"和"生成"两类能力的分离状态。从更宏观的角度看，这项成果具有重要的理论意义。它证实了生成式人工智能技术路线的普适性，表明人类已经掌握了让不同智能能力在同一体系内涌现的方式。这为通用人工智能的持续演进奠定了基础，也为我国在这一领域的进一步突破指明了方向。

当人类凝视星空时，既需要望远镜拓展视野，更需要统一理论揭示宇宙本质。这项来自中国科学家的突破启示我们：人工智能的发展正从"功能叠加"迈向"能力融合"，其意义不亚于从经典力学到相对论的范式跃迁；在各国竞相布局下一代智能技术的当下，坚持原始创新与体系化攻关，或将成为赢得这场科技革命的关键。

我国科研团队提出统一多模态大模型新范式 为通用智能“看想做”一体化提供路径

我国科研团队提出统一多模态大模型新范式为通用智能“看想做”一体化提供路径