浙江大学新专利：灵巧手模仿人类动作

浙江大学最近公开了他们的最新专利。这项技术把灵巧手模仿人类动作，进一步完善，让它可以完成更多复杂任务。这个消息给研究者带来了很大启发，因为灵巧手操作是迈向通用人形机器人的关键一步。章国锋就是这个研究项目的主要负责人。这个项目来源于浙江大学，跟他名字有关。浙江大学的这个团队利用了人类动作预测模型，开发了一套强化学习方法。为了让灵巧手能应对不同的任务，他们构建了统一、简洁、高效的奖励函数。具身智能技术迅速发展，让研究者们意识到，把数据驱动方法应用到机器人通用操作技能上已经成为了热点话题。多指灵巧手凭借其仿人化结构设计，可以在各种复杂场景下完成精细操作。现在主流的多指灵巧手操作学习方法主要有三种。第一种是传统强化学习方法。这种方法需要奖励函数驱动智能体进行大量探索，并且需要针对不同任务重新设计奖励函数。这种方法虽然有效，但它把灵巧手操作和物体之间的非线性交互特性简化了很多。第二种方法是直接利用数据集中的人手轨迹。通过重映射生成灵巧手的专家轨迹，再借助模仿学习复现对应的操作行为。这种方法虽然可以模仿人类行为，但它却忽略了对被操作物体的感知和理解。第三种方法是基于神经网络，根据预先硬编码的物体轨迹预测灵巧手的未来运动轨迹。这种方法虽然有效，但它需要预先掌握物体完整轨迹，增加了开放世界部署成本。虽然现有主流方法有它们各自的优点和缺点，但它们都有一个共同点：忽视物体感知理解以及整体建模人手和物体之间的交互过程。这个问题一直困扰着研究者们，因此引入物体感知理解、实现整体预测成为了解决这个核心技术难题的关键。针对这个问题，浙江大学团队给出了一个高效解决方案。他们利用标注了人手与物体三维位姿的数据训练人类动作预测模型，实现了三维轨迹的泛化生成。然后给仿真环境中灵巧手强化学习策略训练提供统一奖励函数。随后通过仿真参数域随机化与课程学习提升策略从仿真到现实环境迁移性能。最终他们成功把训练成熟的强化学习策略部署到真实机器人系统上。这次专利突破了传统方法只单纯模仿人类行为的局限，引入了对被操作物体未来姿态理解并且整体预测人手和物体之间交互过程。基于这个基础构建的奖励函数适用于不同任务、不同类型灵巧手，在泛化性能上有着明显优势。