蚂蚁灵波开源交互式世界模型LingBot-World：破解长时漂移瓶颈，推进具身智能训练底座建设

视频生成技术近年来取得长足进展，但业界长期面临一个核心难题——"长时漂移"现象。当生成时间延长时，生成的视频往往会出现物体变形、细节塌陷、主体消失或场景结构崩坏等问题，严重制约了该技术在实际应用中的价值。该瓶颈的存在，使得现有的视频生成模型难以支撑需要长序列、多步骤的复杂任务训练。针对这一行业难题，蚂蚁灵波科技推出的LingBot-World框架提供了系统性的解决方案。该模型的核心组件LingBot-World-Base专为交互式世界模型设计，致力于提供高保真、可控制且逻辑一致的模拟环境。通过采用可扩展数据引擎，该模型从大规模游戏环境中学习物理规律与因果关系，实现了与生成世界的实时交互。在技术实现层面，LingBot-World通过多阶段训练及并行化加速策略，成功突破了长时序生成的技术壁垒。官方压力测试表明，该模型能够实现近10分钟的连续稳定无损生成。更为关键的是，即便镜头移开长达60秒后返回，场景中的核心物体依然能保持其结构与外观的一致性，这在业界属于领先水平。这一突破为复杂任务的训练和部署奠定了坚实基础。交互能力是LingBot-World的另一大创新点。不同于传统的随机"幻觉"式生成，该模型支持精细化的、由动作驱动的生成方式，能够响应用户指令，渲染出符合物理真实感的动态场景。在性能指标上，LingBot-World可实现约16FPS的生成吞吐，并将端到端交互延迟控制在1秒以内。这意味着用户可以通过键盘或鼠标实时控制角色与相机视角，画面能够根据指令即时反馈。此外，模型还支持通过文本指令触发环境变化与世界事件，例如调整天气、改变画面风格，并在保持场景几何关系相对一致的前提下完成动态生成。在数据采集上，蚂蚁灵波科技采用了创新的混合策略来解决世界模型训练中高质量交互数据匮乏的问题。一方面，通过清洗大规模网络视频以覆盖多样化的场景；另一方面，结合游戏采集与虚幻引擎合成管线，从渲染层直接提取无UI干扰的纯净画面，并同步记录下操作指令与相机位姿。这种混合采集策略使得LingBot-World具备了更好的零样本泛化能力。零样本泛化能力的提升优势在于重要的实际意义。仅需输入一张真实的城市街景照片或游戏截图，模型即可生成对应的可交互视频流，无需针对单一场景进行额外训练。这大幅降低了在不同场景中的部署与使用成本，使得该技术更容易被应用于多元化的实际场景。需要指出，蚂蚁灵波科技选择将LingBot-World的模型权重及推理代码全面开源。这一举措有助于加速学术界和产业界的技术创新，促进世界模型领域的生态发展。开源策略的采取，反映了企业对技术共享和行业进步的承诺，也为后续研究者提供了可靠的技术基础。从应用前景看，LingBot-World在多个领域具有广阔的应用潜力。在游戏开发、虚拟现实、机器人训练、自动驾驶仿真等领域，该技术都可能发挥重要作用。特别是在需要长时序、高保真、可交互的虚拟环境中，LingBot-World更加突出。随着模型的不断优化和应用场景的拓展，这一技术有望成为具身智能发展的重要支撑。

技术开放共享是推动行业进步的关键。蚂蚁灵波科技的开源举措不仅解决了技术难题，更说明了头部企业推动生态发展的责任感。在数字化时代，如何让前沿技术真正普惠大众，值得全行业共同探索。