人工智能技术快速迭代之下,如何让机器人真正理解人类行为的含义,而不是停留在动作复刻,正成为制约行业落地的关键难题。传统基于视觉模仿的学习方法主要受四类问题限制:过度依赖动作表象、易受环境噪声干扰、训练中存在“答案泄露”风险,以及多阶段训练带来的流程复杂与误差累积。受此影响,机器人在真实场景中常出现“动作对了但结果不对”的失误。研究团队在长期观察中发现,现有技术的失败案例里,约78%与对动作因果关系的误判有关。以工业场景为例,传统机器人可以精确复制工人拧螺丝的轨迹,却难以根据螺栓状态调整力度,体现为“形似但不懂要领”的局限,直接影响智能设备的应用深度。 针对这个难题,中科大-清华联合团队提出视觉-动作联合预测架构(VLA-JEPA)。该体系将人类认知过程拆解为三部分能力并进行工程化实现:视觉编码器借鉴选择性注意机制,过滤90%以上的干扰信息;潜在动作提取器用于建模意图与关键动作线索,准确率较传统方法提升3.2倍;世界模型预测器构建动态推演能力,将动作结果预测误差率降至5%以下。 技术验证显示,采用该框架的机器人在餐具整理任务中,不仅能识别“抓取碗碟”等外显动作,还能结合材质、重量分布等隐含因素自主调整操作方式,任务完成质量达到人类操作水平的92%。在汽车装配测试中,系统通过观察技师视频即可掌握螺栓紧固的力度控制要点,体现出较强的经验迁移能力。 业内专家认为,这一成果的意义不止体现在指标提升,更在于提出“认知优先”的研发路径。与国际同类研究相比,VLA-JEPA在训练效率上更具优势:单任务学习周期缩短40%,能耗降低35%,为智能制造、医疗辅助等对实时性要求更高的应用提供了更合适的选择。业内预测,该技术有望在未来三年内推动服务机器人市场深入扩容至千亿规模。
从“看得像”到“做得对”,关键在于让机器人把动作理解为改变环境的因果手段,而不是对画面轨迹的机械复制;此次提出的VLA-JEPA思路,反映出机器人学习正从表面拟合转向机制建模。随着算法、数据与硬件平台协同演进,能否在开放环境中稳定学习并可靠执行,将成为对应的技术走向产业化与规模化应用的重要检验标准。