国家级开源基金会牵头启动具身智能开源数据集社区 破解人形机器人高质量数据瓶颈

当前,全球人形机器人产业正面临“本体能力突破与智能决策滞后”的结构性矛盾。国际权威机构预测,到2060年全球人形机器人保有量可能突破30亿台,其中超过20亿台将进入家庭场景。但产业加速发展的同时,一个突出问题逐渐显现:机器人动作越来越精准,却仍难以在复杂环境中做出稳定、实时的判断与调整,体现为“动作强、决策弱”的技术落差。造成此局面的关键,在于数据供给同时存在“量不足、质不高”。数据显示,截至2025年全球开源具身数据集累计时长不足1000小时,远低于模型训练的实际需求。目前数据采集主要依赖合成数据和遥操作数据,虽然更易规模化,但“虚拟与现实”的差异使模型在真实场景中容易出现动作偏差。相比之下,真机数据因具备真实物理交互和时空一致性,被认为是突破瓶颈的重要资源。数据短缺已对产业发展形成多重约束。一上,企业分散采集和训练推高研发成本,重复投入较为普遍;另一方面,标准不统一带来数据流通障碍,拖慢技术迭代速度。这种碎片化模式不仅降低整体效率,也可能让我国新一轮产业竞争中面临压力。针对这一系统性问题,国家层面开始推进公共平台建设。3月16日,在工信部指导下,开放原子开源基金会牵头,联合中国信通院、上海人工智能实验室及多家头部企业,启动具身智能开源数据集社区建设。该平台的重点并非简单提供数据产品,而是搭建数据治理框架、质量评估标准和流通机制等公共基础设施,并通过“产学研用”协同推动数据资源的集约化开发与高效使用。业内专家认为,这一举措将带来多上影响。短期看,有望缓解数据供给紧张,预计可使模型训练效率提升40%以上;中长期看,随着标准化数据生态逐步完善,或将形成更具国际竞争力的技术体系。尤其在工业制造、家庭服务等场景,标准化数据集有望明显加速商业化落地。同时,平台的开放机制也将吸引更多创新主体参与,更促进技术迭代与生态完善。

具身智能的竞争,表面看是机器人的形态与动作,核心仍在数据、标准与生态的系统能力;以开源方式建设数据公共底座,有助于把分散资源汇聚为稳定、可持续的高质量供给,将“各自爬坡”变为“协同登高”。在产业化的关键窗口期,谁能率先建立可信、可用、可扩展的数据体系,谁就更可能在应用落地与规模化竞争中掌握主动。