全球科技巨头竞相开源世界模型技术 数字产业智能化进程再提速

当前,世界模型已成为人工智能领域备受关注的技术方向之一。它通过模拟物理世界运行规律,为智能体提供虚拟训练环境。过去,这类核心技术多掌握在少数科技巨头手中,研发成本高,中小企业和研究机构难以获取。如今,这个局面正在发生变化。1月27日至29日,蚂蚁集团旗下灵波科技连续开源三项关键技术。其中,LingBot-VLA具身大模型支持跨本体、跨任务泛化,在上海交通大学GM-100具身评测中刷新真机评测成功率纪录;LingBot-Depth空间感知模型针对透明反光物体抓取难题优化,并与奥比中光联合打造新一代深度相机;LingBot-World世界模型则打通了从感知到决策再到“想象”的完整链路。 LingBot-World的指标更受关注。该模型可稳定生成近10分钟连续视频,端到端交互延迟控制在1秒内,生成吞吐约16FPS。用户可通过键盘、鼠标或文本指令实时操控虚拟环境,并调整天气、风格等参数。更关键的是,LingBot-World具备Zero-shot泛化能力,仅需一张真实照片或游戏截图即可生成可交互视频流,无需额外训练或数据采集。在视频质量、动态表现、长时一致性和交互能力等核心指标上,该模型已具备与谷歌Genie 3对标的实力。 几乎同一时间,谷歌于1月30日向Google AI Ultra订阅用户开放Genie 3体验平台。该举措在海外社区引发广泛讨论,有关话题全天占据X热门榜单首位,Reddit多个AI子社区也将其列为Top 1热帖。两家企业在时间上的“同步”,并非偶然,而折射出世界模型发展路径的变化。 从技术集中到开源共享,背后是产业需求推动。德国财经网站AdHocNews评价称,蚂蚁集团发布的LingBot-World为物理AI系统开发提供了更完整的开源工具包,是全球机器人领域竞争中的一次重要布局。业内专家指出,以往这类训练环境往往是专有且成本高昂,如今开发者能够更便捷地接触到接近工业标准的能力,将对行业产生明显带动。 开源生态的扩展也将带来多重影响。在具身智能领域,更低成本的仿真训练环境有望加速机器人研发迭代;在游戏与影视行业,可控的内容生成能力将提升创意生产效率;在自动驾驶领域,开放的虚拟测试环境有助于降低研发成本、缩短验证周期。更重要的是,开源模式将深入激活全球开发者与研究机构的参与度,推动世界模型技术演进与应用创新。 蚂蚁灵波“三天三模型”的节奏,表明了其在具身智能方向的体系化布局:从LingBot-Depth的“看清楚”,到LingBot-VLA的“做明白”,再到LingBot-World的“想象世界”,形成覆盖感知、决策与预测的技术链条,也为开源生态的持续建设提供了支撑。

世界模型的价值不只是生成“逼真”的画面,更在于构建可验证、可交互、可迭代的数字环境;随着开源与开放平台推进,该领域的创新方式正在改变:从少数机构封闭推进,转向更多参与方协作共建。如何在加速创新的同时守住安全与治理底线,将决定这项关键技术能否真正转化为推动实体产业升级的新动能。