宇树科技发布人形机器人高动态控制核心论文:单一策略完成24种高难动作,后空翻成功率96.36%,为通用人形机器人落地提供关键算法支撑

问题:高动态动作“学得多却做不好” 人形机器人要从展示型走向通用型,高动态全身控制是关键挑战之一。实际应用中,机器人不仅需要完成单个动作,还需在不同风格、节奏和接触状态间稳定切换。然而,行业普遍面临“泛化屏障”:随着动作库的扩充,控制策略的稳定性和动作保真度往往同步下降,导致“学得越多,表现越差”的现象。 原因:训练干扰与硬件限制加剧风险 研究指出,问题源于两类因素的叠加。首先,传统多动作强化学习在联合训练中容易产生梯度干扰,策略为平衡多任务而趋于“保守平均”,导致单动作尚可,但多动作切换或复杂协同时精度大幅下降。其次,仿真环境与真实硬件之间存在执行器非线性差异及功率、速度等约束,高动态动作对误差极为敏感,微小偏差可能迅速引发失衡、摔倒,甚至触发硬件保护机制,影响可靠性和安全性。这也是后空翻、急停转向、复杂步法等“极限动作”难以通过单一策略稳定实现的主要原因。 影响:从“表演技能”到“通用能力”的瓶颈 业内共识是,人形机器人的产业化不仅依赖硬件能力(如关节和材料),更取决于控制系统在复杂环境中的稳定性。如果高动态能力仅靠单动作定制实现,训练成本高、迭代周期长,难以适应多场景需求,也难以形成可复制的工程路径。反之,若能通过统一策略覆盖多类动作并具备扩展性,将显著降低新技能的开发门槛,加快算法和产品迭代,为仓储巡检、公共服务、特种作业等场景提供更可靠的技术支持。 对策:两阶段框架“先统一、再适配真机” 针对上述问题,研究提出名为OmniXtreme的两阶段训练方法,以“先学全、再做实”解决保真度与扩展性的矛盾。 第一阶段通过流匹配预训练,将多个“单动作专家策略”统一蒸馏为覆盖异构动作的基础策略,避免多任务训练的相互干扰,并通过更高容量的策略结构提升对不同动作的表达能力,解决“动作多导致学习不稳定”的问题。 第二阶段面向真机落地进行执行器感知后训练:冻结基础策略,引入残差策略微调,同时建模真实执行器特性,结合更激进的域随机化和机械功率惩罚机制,重点抑制高动态动作落地时的瞬态大负载风险,减少硬件保护触发和损伤概率,从而打通仿真到现实的最后一环。 前景:统一策略实现多动作稳定执行 真机测试显示,该方法在宇树G1上实现了单一策略覆盖24种高动态动作,总体成功率超过90%;在后空翻、武术与街舞等复杂动作中保持较高稳定性,并满足实时控制的延迟和频率要求。相比基线方法在动作扩展时成功率显著下降的情况,该框架在扩展性和稳定性上表现更优。 需要指出,该训练范式强调“可复用、可扩展”,新增动作无需从零训练,有望降低重复成本,提升技能迭代效率。研究团队还计划开源模型与代码。业内人士认为,这将为学术界和产业界提供可验证的技术路线,推动高动态人形控制从“单点突破”迈向系统化发展。

这项来自中国的研究突破不仅拓展了人形机器人的性能边界,也为智能装备的自主进化提供了新思路;随着核心技术持续突破,兼具通用性和可靠性的机器人有望加速应用于工业生产、应急救援等领域,为科技革命贡献中国智慧。该成果也表明,在人工智能与实体经济的深度融合中,中国正从技术跟随者逐步成为标准制定者。