摘要
本发明属于机器人控制技术领域,提供了复杂地形下四足机器人摔倒自恢复控制方法及系统。其中,该方法包括利用教师网络从归一化处理的特权信息中提取摔倒自恢复策略特征,来为学生网络提供优化参考;利用学生网络对模仿教师网络的策略特征进行学习,以对归一化处理的本体状态信息历史观测信息进行处理;当策略收敛后,利用Actor网络对学生网络的输出特征及归一化后的本体状态信息的实时观测信息进行处理,通过与仿真环境交互,获得下一状态观测信息、奖励信号、代价反馈及任务结束标志,输出四足机器人动作;评估出当前状态下采取特定动作的价值;利用Cost网络对归一化处理的特权信息进行处理,评估四足机器人当前动作的代价。