摘要
本发明公开了基于门控循环单元的机器人强化学习控制方法及系统,涉及人工智能技术领域,基于强化学习状态机,将已训练完的学生网络零映射部署到真实四足机器人上,实现四足机器人运动控制;学生网络的训练过程如下:搭建机器人的仿真训练地形环境,为每种地形设置不同等级的地形难度;基于蒸馏学习思想,搭建基于门控循环单元的教师网络和学生网络,并构建总损失函数,基于构建的总损失函数,通过全方位的仿真训练地形环境和大规模并行训练方法,学生网络拟合教师网络输出的电机关节角度;该机器人强化学习控制方法及系统的实现机器人在非结构化地形下的鲁棒运动,对传统控制无法胜任的动态环境具有很好的抗干扰能力和自恢复能力。