具身智能研究长期面临一个核心难题:世界模型在理论上备受期待,但落到实际应用时却常常“失灵”;根源在于,现有世界模型多以成功演示数据为主进行训练,对失败场景学习不足。机器人在真实环境执行任务时,模型往往难以准确预测物理过程,甚至会把明显失败误判为成功,进而让训练数据质量持续下滑,形成恶性循环。这种“输入有偏、输出失真”的问题,已成为限制机器人能力提升的重要瓶颈。清华大学陈建宇团队与斯坦福大学Chelsea Finn团队联合尝试破局。他们基于开源项目Ctrl-World提出VLAW框架,关键在于建立视觉语言模型与世界模型的双向反馈机制,让两类模型不再各自独立工作,而是通过“相互校准、迭代提升”形成闭环。
世界模型的价值不只在于生成更逼真的画面,更在于能否支撑可靠训练,把失败、风险和物理约束纳入学习闭环;VLAW框架给出的启示是:以少量真实世界数据完成关键校准,再用高质量合成数据放大训练效率,可能是一条提升具身智能稳健性与落地效率的可行路径。随着评估体系、数据治理与安全边界同步完善,“先在虚拟中充分试错、再在现实中稳健执行”的训练模式有望加速成熟。