中科大清华等推出VLA-JEPA框架破解机器人"看视频会动作难懂因果"瓶颈

人工智能技术快速迭代之下，如何让机器人真正理解人类行为的含义，而不是停留在动作复刻，正成为制约行业落地的关键难题。传统基于视觉模仿的学习方法主要受四类问题限制：过度依赖动作表象、易受环境噪声干扰、训练中存在“答案泄露”风险，以及多阶段训练带来的流程复杂与误差累积。受此影响，机器人在真实场景中常出现“动作对了但结果不对”的失误。研究团队在长期观察中发现，现有技术的失败案例里，约78%与对动作因果关系的误判有关。以工业场景为例，传统机器人可以精确复制工人拧螺丝的轨迹，却难以根据螺栓状态调整力度，体现为“形似但不懂要领”的局限，直接影响智能设备的应用深度。针对这个难题，中科大-清华联合团队提出视觉-动作联合预测架构（VLA-JEPA）。该体系将人类认知过程拆解为三部分能力并进行工程化实现：视觉编码器借鉴选择性注意机制，过滤90%以上的干扰信息；潜在动作提取器用于建模意图与关键动作线索，准确率较传统方法提升3.2倍；世界模型预测器构建动态推演能力，将动作结果预测误差率降至5%以下。技术验证显示，采用该框架的机器人在餐具整理任务中，不仅能识别“抓取碗碟”等外显动作，还能结合材质、重量分布等隐含因素自主调整操作方式，任务完成质量达到人类操作水平的92%。在汽车装配测试中，系统通过观察技师视频即可掌握螺栓紧固的力度控制要点，体现出较强的经验迁移能力。业内专家认为，这一成果的意义不止体现在指标提升，更在于提出“认知优先”的研发路径。与国际同类研究相比，VLA-JEPA在训练效率上更具优势：单任务学习周期缩短40%，能耗降低35%，为智能制造、医疗辅助等对实时性要求更高的应用提供了更合适的选择。业内预测，该技术有望在未来三年内推动服务机器人市场深入扩容至千亿规模。

从“看得像”到“做得对”，关键在于让机器人把动作理解为改变环境的因果手段，而不是对画面轨迹的机械复制；此次提出的VLA-JEPA思路，反映出机器人学习正从表面拟合转向机制建模。随着算法、数据与硬件平台协同演进，能否在开放环境中稳定学习并可靠执行，将成为对应的技术走向产业化与规模化应用的重要检验标准。

中科大清华等推出VLA-JEPA框架 破解机器人"看视频会动作难懂因果"瓶颈

中科大清华等推出VLA-JEPA框架破解机器人"看视频会动作难懂因果"瓶颈