宇树开源人形机器人，让机器人听懂人话、再把话转化成动作真的太难了

现在国内的机器人行业已经有了大进展，特别是宇树科技这次开源了个名叫UnifoLM-VLA-0的模型，专门用来给通用人形机器人当“大脑”，让它们不用再搞那种每个任务都得重新设计策略的老套路。以前让机器人听懂人话、再把话转化成动作真的太难了，宇树这回就是把以前那个叫Qwen2.5-VL-7B的模型拿来继续训练，专门让它能把咱们说的话跟周围的二维三维空间信息给揉合到一块儿。这么搞不仅能让机器人更清楚东西在哪儿、长啥样，团队还自己准备了一套多任务数据集来教模型怎么预测动作产生的物理效果。结果他们只用了大约340小时的真机数据就练出来了。在性能测试这块儿，这套模型在LIBERO那个仿真基准里拿到了很接近顶尖的分数。更厉害的是在真机上做实验的时候，机器人只用一种控制方法就能高质量搞定抓取、放置、组装、开关等整整12种复杂任务。这就说明它的泛用性很强，不用再为每个新活儿重新写代码了。业内人士觉得这种把大模型直接公开出来的做法挺不错的，能把大家的力量都聚起来一起干。宇树这次不光给了工具，还把怎么用数据怎么训练的方法也分享了出来。全球都在争着抢着做人形机器人的时候，这种开源的行为特别有利于大家一起玩，也能降低门槛。这个模型证明了一个智能模型就可以搞定很多种活儿，给咱们国家的智能制造业、家政服务还有特种作业这些地方都打下了好基础。以后要是想在国际上站住脚跟，还得靠咱们自己在算法上持续突破，多去搞一些应用场景，把产业生态弄得更开放更协同才行。