“北京人形”:智能数据工厂

3月19日这天,新京报贝壳财经记者实地来到了位于北京的人形机器人创新中心,去探访这家名叫“北京人形”的基地。这里专门负责给各种人形机器人采集数据和训练,所以也被称为具身智能数据工厂。这基地自打去年年底投用还没到半年,就已经是国内最齐全、最丰富的具身智能数据采集平台之一了。北京人把这个基地搞得很规范,不光自己牵头制定了国内首个《人工智能具身智能数据采集规范》,还对外卖出去了好几万小时的高质量真机数据。他们开源的数据累计被下载了200万次,正朝着“全球首个百万小时高质量具身智能数据”的目标努力呢。 大家可能不太懂,为什么这种真机采集比虚拟仿真更靠谱?其实是因为现场的力觉反馈、触觉信息和环境干扰这些细节,是虚拟场景根本没法完全还原的。只有把这些真实环境的任务闭环完整复刻出来,才能解决模型训练中的“分布偏移”难题,把机器人的智能从虚拟世界带到现实中来。 我走进了基地5000平方米的大厂房里,发现里面复刻了家居、商超、办公、工业、医药、康养这六大领域,一共搭了30多个典型场景。旁边还有一块200平方米的光学动作捕捉场地,能用高精度技术捕捉人的动作。工作人员正在用遥控器操作机器人去拿东西。他们跟我说,这里的所有场景都是动态的,可以随时调光照、换物体摆放位置和人员动线。这样能保证数据有泛化能力,能覆盖到算法训练里的边缘案例和长尾场景。 硬件方面就更厉害了!这里有120多台机器人设备,既包括北京人形自己研发的“天工”和“天轶”系列,也有Aloha、宇树、优必选、Franka、UR这些国内外的机器人或专业设备。大家还配了头环式和夹爪式的轻量化设备,实现了真机遥操作、开放环境采集和动作捕捉这三大核心能力。这种多品牌多构型的编队模式打破了单一机器人的数据孤岛效应。 为了保证质量,“北京人形”建立了一套标准化的生产体系,从采集到标注再到质检全都管起来。我还看到他们正在测试各种动作呢!蒋未来是这个基地的负责人,他接受了媒体采访聊了聊行业里的痛点和趋势。 他说数据质量就是生命线。当时基地刚开业的时候,质检合格率只有50%,不合格的东西太多浪费钱。后来他们把前面的现场管理和后面的后台处理两头都抓了起来。前期建立了严格的工艺流程和人员培训体系;后期用自研平台监控设备质量、归类错误并溯源形成闭环。经过四个月的打磨,内部质检合格率已经涨到了95%左右,超70%的产能都拿去服务研发型客户了。 现在行业里还存在一个很大的问题就是数据异构。不同厂商的机器人硬件接口不一样就像说不同的方言一样壁垒森严。“北京人形”也在研究怎么解决这个问题。现在真机数据已经能稳定量产了但解决异构的方案还在研发中。 最后蒋未来展望了一下2026年的行业趋势:市场需求已经爆发式增长了起码10倍;行业的核心趋势是新采集方式落地和优化;真机和仿真之间会找到平衡点;数据采集的标准化和智能化也会进一步提升。“北京人形”就像一个大工厂一样为整个行业提供高质量的具身智能数据服务! 这篇文章是由韦博雅摄影、杨娟娟编辑的!