问题——具身智能作为新一轮智能技术与机器人产业的重要方向,正从实验室走向工程化应用;与算法、算力同样关键的是高质量数据供给。但现实中,行业普遍存在数据来源分散、采集口径不一、标注体系不统一、共享机制不足等问题,导致不同机构难以对齐评测指标、复现实验结果,技术迭代效率受到影响。更重要的是,如何在数据安全与合规边界要求下实现开放共享,仍缺少可复制的治理框架和行业共识。 原因——具身智能数据特点是“多模态、强耦合、强场景依赖”,既包含视觉、力觉、触觉等传感信息,也涉及关节控制信号、动作轨迹与环境交互状态;同时,机器人硬件形态、传感器配置与控制架构差异较大,使数据格式与标注标准难以自然统一。加之产业链上下游在数据资产、商业竞争和知识产权上的诉求不同,开放意愿不强、协同成本较高。随着人形机器人等全尺寸平台加速发展,真机数据采集成本、管理难度与合规要求同步上升,更需要中立平台牵引和公共机制支撑。 影响——因此,开放原子开源基金会人工智能开源社区开源数据集工作组在沪启动,并同步成立具身智能开源数据集社区,传递出“以开源促协同、以标准促应用”的信号。工作组将联合产业界、科研机构及标准化组织等力量,推动开源数据集在技术规范、标准体系与安全合规等的建设,着力缓解标准不统一、生态协同不足等问题。具身智能开源数据集社区由乐聚机器人牵头发起,聚焦真实数据开源与生态建设,提出开放全尺寸人形机器人真机数据与模型训练工具链,打造开发者生态、孵化创新团队,并为国内外开发者、科研团队及企业提供协作通道。业内人士认为,这有助于降低研发门槛,推动训练数据、评测基准与工程工具的共建共享,促进成果从“可展示”走向“可复用、可部署”。 对策——活动现场发布的OpenLET“触觉灵巧操作+全身运动”数据集,为行业提供了可对齐的样本与方法参考。其中,灵巧操作数据提供指尖压力矩阵、六维力等多模态信息,实现“视觉—力触—动作”全链路同步对齐;全身协同数据覆盖41个关节控制信号,任务维度从基础行走扩展至深蹲、弯腰等高难度全身联动动作。据介绍,该数据集为国内首个开源全尺寸人形机器人全身协同多模态真机数据集。以数据集为牵引,下一步行业需要在三上形成合力:一是加快统一数据格式、采集协议、标注规范和评测指标,构建可互操作的“通用底座”;二是完善安全合规框架,明确数据来源、使用授权、隐私与安全边界,建立可追溯、可审计的开放机制;三是推动“数据集—工具链—基准测试—应用场景”闭环,以开源方式缩短从数据到产品的路径,提升生态活跃度与创新效率。 前景——开放原子开源基金会理事长程晓明表示,基金会坚持中立开放,已累计孵化52个开源项目,推动软件产业发展并服务数字化转型。面向未来,随着具身智能向制造、物流、养老服务、公共安全等场景延伸,行业对数据质量、泛化能力与可靠性的要求将持续提高。以开源数据集社区为抓手,叠加标准协同与合规治理,有望形成可持续的公共数据与工具供给体系,帮助更多中小团队以更低成本参与创新,也将为我国在具身智能关键技术、产业生态与国际协作中争取更大主动权。
开源不只是“资源共享”,更是一种协同创新方式。面对具身智能此高度依赖真实世界数据的前沿领域,通过社区化运营推动规范共建、数据共享与合规治理,有助于打通从研究到产业的关键链路。以开放促创新、以规则保安全、以生态强产业,具身智能的技术突破与应用落地将获得更持续、更稳健的支撑。