蚂蚁灵波科技把他们开发的世界模型LingBot-World给全球开发者社区开源了,引起了很大关注。这个动作,对我国来说是技术实力的展示,也是开放合作精神的体现。世界模型的意义在于模拟物理世界的动态与因果关系,给AI打造了个高度拟真的“数字沙盘”,让系统在投入真实场景前进行低成本演练。LingBot-World在多个核心性能上达到了先进水平,有效解决了长视频生成中的“时域漂移”问题。通过创新的多阶段训练和并行加速技术,这个模型能生成近十分钟的连续稳定视频,支持机器人操作和自动驾驶等复杂任务训练。 在交互实时性方面,LingBot-World把端到端响应延迟控制在1秒以内,用户还能通过键盘鼠标操控生成内容中的角色行为与视角。此外,这个模型还能根据自然语言指令触发环境状态变化,如切换昼夜和天气等,保持场景基本逻辑一致。 LingBot-World展示了良好的零样本泛化能力。即使输入未经过专门训练的街景照片或游戏截图,也能生成可交互动态场景。这种特性降低了不同领域和场景中的迁移与部署成本。高质量结构化数据是构建强大世界模型的基础,研发团队采用了“真实数据清洗”和“合成数据生成”相结合的混合策略来克服数据瓶颈。 这个模型被认为是人工智能产业向基础层、框架层深耕的重要一步。它为我国的机器人研发、自动驾驶算法测试等领域提供共性技术支撑。未来如何持续迭代能力、构建应用生态、确保安全合规使用是产业各界需要共同面对的课题。通过开源LingBot-World世界模型,我们希望更多人能够参与到这个行业中来,推动中国在人工智能领域取得更大进步。