科研团队突破机器人训练瓶颈虚拟与现实融合技术提升智能体实操能力

具身智能研究长期面临一个核心难题：世界模型在理论上备受期待，但落到实际应用时却常常“失灵”；根源在于，现有世界模型多以成功演示数据为主进行训练，对失败场景学习不足。机器人在真实环境执行任务时，模型往往难以准确预测物理过程，甚至会把明显失败误判为成功，进而让训练数据质量持续下滑，形成恶性循环。这种“输入有偏、输出失真”的问题，已成为限制机器人能力提升的重要瓶颈。清华大学陈建宇团队与斯坦福大学Chelsea Finn团队联合尝试破局。他们基于开源项目Ctrl-World提出VLAW框架，关键在于建立视觉语言模型与世界模型的双向反馈机制，让两类模型不再各自独立工作，而是通过“相互校准、迭代提升”形成闭环。

世界模型的价值不只在于生成更逼真的画面，更在于能否支撑可靠训练，把失败、风险和物理约束纳入学习闭环；VLAW框架给出的启示是：以少量真实世界数据完成关键校准，再用高质量合成数据放大训练效率，可能是一条提升具身智能稳健性与落地效率的可行路径。随着评估体系、数据治理与安全边界同步完善，“先在虚拟中充分试错、再在现实中稳健执行”的训练模式有望加速成熟。

科研团队突破机器人训练瓶颈 虚拟与现实融合技术提升智能体实操能力

科研团队突破机器人训练瓶颈虚拟与现实融合技术提升智能体实操能力