我们国家搞的具身智能现在有了大动作,蚂蚁灵波那两个看家的模型都把技术细节全公开了

咱们国家搞的具身智能现在有了大动作,蚂蚁灵波那两个看家的模型都把技术细节全公开了。这可是人工智能真正跟现实世界深度结合的全球比赛里,咱们科研人员又拿下了一个关键节点。 说起来,蚂蚁集团下面负责研发的那个团队,这次是把自家搞出来的两大法宝——LingBot-VLA还有LingBot-Depth给推了出来,让全行业都能用。不光是模型,连怎么用它继续训练的全套工具链和说明书也都一并放出来了。这说明咱们的科技公司在研究这块一直没松懈,给后面的人铺路了。 具身智能就是让机器能像人一样用眼睛看、用脑子想、用手去操作,在物理世界干活。蚂蚁这次开源的LingBot-VLA在设计上做了不少新花样。人家早就跟星海图、松灵、乐聚这些机器人大厂的机器搭过伙了,不管是两条腿走路的还是四条腿爬行的都能用。 最厉害的是他们自己弄的那个训练工具链。在一台8卡GPU的电脑上跑起来,每秒能处理261个样本数据,速度比外面的主流方案快了1.5到2.8倍。这就把搞AI训练需要的大量数据和巨大算力给省下来了。 技术的进步背后肯定是扎实的研究打底。那个研究团队头一回把“眼睛语言动作”模型在真正的机器人身上的运作规律给摸透了。数据显示,给模型喂的数据从3000小时涨到20000小时后,它在干具体任务的时候成功率一路走高。数据越涨表现越好,后面该往哪个方向走就很清楚了。 基于这一发现,团队专门做了个大合集数据集,把市面上9种主流双臂机器人的操作录了个遍,凑足了20000小时的时间量,这对行业来说可是个无价之宝。 在上海交通大学发布的那个GM-100基准测试里(这个测试有100个真操作),凌波的模型在三个不同机器平台上表现非常亮眼。跨本体的平均成功率比国外的好货高出了2.7个百分点。要是再把深度感知信息也加进来,成功率更是猛蹿到了17.3%,说明多模融合确实管用。 另一个开源的LingBot-Depth是搞空间感知的。这东西靠着奥比中光Gemini 330系列的3D相机收来的RGB-Depth数据进行训练优化。哪怕是那种不全的、有噪的传感器读数,它都能变成有准头的真尺度三维图。 实验数据看下来,它在精准度和覆盖范围这两个最硬的指标上都吊打了顶级工业相机。在NYUv2、ETH3D这些国际有名的标准测试里头,它在补全深度、估算单目深度还有双目匹配这几样活儿上都拿了冠军。 而且它在不搞那种很复杂的时序建模的情况下,居然还能保持视频一样的流畅一致感。这对机器人看动态环境、还有汽车自动驾驶都特别有价值。它也通过了奥比中光实验室的专业盖章,精度和稳定性都没话说。 这次两家模型同时开源,是咱们国家从技术追赶变成局部领先的重要标志。把基础模型和工具链放出来后,大家干活的门槛就降低了很多,落地也能更快一点。这也能让学校、工厂和实验室一块搞创新生态。 在全世界竞争这么凶的情况下,咱们科技公司还是在基础研究上砸钱,去啃硬骨头。这给高质量发展加了不少猛劲儿。以后要是把具身智能跟制造业、服务业彻底揉到一起,肯定能弄出新的行业形态和应用场景,给数字经济腾出更广阔的地盘。