从“空中楼阁”到“训练神器”,vlaw给机器人一种先在想象中达到顶峰的能力

从“空中楼阁”到“训练神器”,VLAW 给机器人一种先在想象中达到顶峰的能力。以往世界模型总被诟病“看起来美好”,人们期盼它成为机器人训练的终极平台。但当真实机器人进入其中,发现模型擅长表面现象,缺乏物理真实性。数据大多来自顺利的演示,模型对失败案例视而不见,虚拟数据与真实物理差距巨大,导致强化学习策略经常失败。这次问题的核心在于世界模型对残缺积木自动补全和错误判断倒塌方块为堆叠成功。大家看到的“垃圾进、垃圾出”循环让人头痛。 为了解决这个问题,清华陈建宇团队和斯坦福 Chelsea Finn 团队决定联手改善现状。他们基于 Ctrl-World 这个项目,提出了 VLAW 框架,让视觉语言动作策略与世界模型形成闭环。首先用真实数据校准世界模型,让它看到失败案例;然后用高保真虚拟数据给 VLA 喂合成轨迹。这样就把世界模型和策略从单打独斗变成联合训练。 具体步骤是:第一步摘掉盲目乐观的滤镜,用真实数据微调预训练的世界模型;第二步给虚拟轨迹装上裁判,基于 Qwen3-VL-4B-Instruct 微调视觉语言奖励模型;第三步在想象中练习到极限;第四步把成功经验带回真实世界。 实验结果显示经校准的世界模型在 PSNR 和 SSIM 等指标上领先,不再把失败“脑补”成成功。20 秒连续实验也表现稳健。在五个接触密集型任务中成功率提升约 30%,显著优于 Filtered BC 和 DSRL。 接下来的工作是把更多任务数据喂给世界模型提升通用性,并结合先进视频生成模型提高精度。研究团队相信当世界模型足够大、精准、通用时,机器人就能先在虚拟世界练满级再迁移到现实中。