宇树科技发布人形机器人高动态控制核心论文：单一策略完成24种高难动作，后空翻成功率96.36%，为通用人形机器人落地提供关键算法支撑

问题：高动态动作“学得多却做不好” 人形机器人要从展示型走向通用型，高动态全身控制是关键挑战之一。实际应用中，机器人不仅需要完成单个动作，还需在不同风格、节奏和接触状态间稳定切换。然而，行业普遍面临“泛化屏障”：随着动作库的扩充，控制策略的稳定性和动作保真度往往同步下降，导致“学得越多，表现越差”的现象。原因：训练干扰与硬件限制加剧风险研究指出，问题源于两类因素的叠加。首先，传统多动作强化学习在联合训练中容易产生梯度干扰，策略为平衡多任务而趋于“保守平均”，导致单动作尚可，但多动作切换或复杂协同时精度大幅下降。其次，仿真环境与真实硬件之间存在执行器非线性差异及功率、速度等约束，高动态动作对误差极为敏感，微小偏差可能迅速引发失衡、摔倒，甚至触发硬件保护机制，影响可靠性和安全性。这也是后空翻、急停转向、复杂步法等“极限动作”难以通过单一策略稳定实现的主要原因。影响：从“表演技能”到“通用能力”的瓶颈业内共识是，人形机器人的产业化不仅依赖硬件能力（如关节和材料），更取决于控制系统在复杂环境中的稳定性。如果高动态能力仅靠单动作定制实现，训练成本高、迭代周期长，难以适应多场景需求，也难以形成可复制的工程路径。反之，若能通过统一策略覆盖多类动作并具备扩展性，将显著降低新技能的开发门槛，加快算法和产品迭代，为仓储巡检、公共服务、特种作业等场景提供更可靠的技术支持。对策：两阶段框架“先统一、再适配真机” 针对上述问题，研究提出名为OmniXtreme的两阶段训练方法，以“先学全、再做实”解决保真度与扩展性的矛盾。第一阶段通过流匹配预训练，将多个“单动作专家策略”统一蒸馏为覆盖异构动作的基础策略，避免多任务训练的相互干扰，并通过更高容量的策略结构提升对不同动作的表达能力，解决“动作多导致学习不稳定”的问题。第二阶段面向真机落地进行执行器感知后训练：冻结基础策略，引入残差策略微调，同时建模真实执行器特性，结合更激进的域随机化和机械功率惩罚机制，重点抑制高动态动作落地时的瞬态大负载风险，减少硬件保护触发和损伤概率，从而打通仿真到现实的最后一环。前景：统一策略实现多动作稳定执行真机测试显示，该方法在宇树G1上实现了单一策略覆盖24种高动态动作，总体成功率超过90%；在后空翻、武术与街舞等复杂动作中保持较高稳定性，并满足实时控制的延迟和频率要求。相比基线方法在动作扩展时成功率显著下降的情况，该框架在扩展性和稳定性上表现更优。需要指出，该训练范式强调“可复用、可扩展”，新增动作无需从零训练，有望降低重复成本，提升技能迭代效率。研究团队还计划开源模型与代码。业内人士认为，这将为学术界和产业界提供可验证的技术路线，推动高动态人形控制从“单点突破”迈向系统化发展。

这项来自中国的研究突破不仅拓展了人形机器人的性能边界，也为智能装备的自主进化提供了新思路；随着核心技术持续突破，兼具通用性和可靠性的机器人有望加速应用于工业生产、应急救援等领域，为科技革命贡献中国智慧。该成果也表明，在人工智能与实体经济的深度融合中，中国正从技术跟随者逐步成为标准制定者。