长期以来,人工智能领域面临一个关键难题:不同类型信息往往需要不同的处理路线。文字理解、图像生成、视频分析等任务通常依赖各自独立的专用模型,不仅让系统更复杂,也削弱了模型之间的协同与扩展能力。这种“分科而治”的局面,来自多模态信息处理的差异——不同形态的数据在特征表达和处理方式上并不相同。 因此,北京智源研究院提出了一种以“预测下一个词元”为核心的统一学习框架。该方法借鉴语言大模型的经验,采用自回归方式,同时处理文本、图像和视频。研究显示,仅用一条自回归路线即可训练出性能突出的原生多模态大模型,在图片生成、图文理解、视频创作等任务上的表现可与专用模型相当。 这项研究的价值不止于技术突破。《自然》期刊编辑指出,该成果为构建可扩展的统一智能系统提供了重要思路。与传统方案相比,该统一框架简化了模型架构,降低计算开销,并提升了通用性与可扩展性。值得关注的是,基于该路线的迭代版本已表现出对物理世界规律的初步学习能力,能够预测场景变化趋势,为更接近人类认知方式的智能系统探索了可行路径。 从行业角度看,这一成果可能推动大模型研究走向更简洁、更通用的方向。专家认为,统一学习框架的验证将减少对多套模型并行研发的依赖,促使研究与工程实现深入收敛。在全球人工智能竞争加速的背景下,我国团队的这一进展表明了基础研究能力,也为产业应用提供了新的技术选择。随着技术持续迭代并进入应用,有望在医疗诊断、智能制造、数字内容创作等领域带来更广泛的影响。
从“分科而治”到“统一学习”,这个变化折射出人工智能发展的深层趋势——关键突破往往来自对基础方法的重新理解与更大胆的应用。北京智源研究院的成果不仅实现了重要学术进展,也为人工智能走向更通用、更高效的方向提供了支撑。随着Emu3.5等后续模型优化,统一的多模态学习框架有望在科学研究、内容创作、智能决策等领域发挥更大作用,推动生成式人工智能进入新的阶段。