摘要
本发明公开了一种双足机器人步态网络训练方法,构建双通道深度强化学习架构;采集X个双足机器人在仿真环境的简单地形中的运行状态;根据当前运行状态得到当前奖励,并将各信息合并马尔可夫决策过程存入经验回放区;当经验回放区中的马尔可夫决策过程数目大于预设阈值n,从中随机取预设数量的马尔可夫决策过程,更新主网络和对手网络参数;对主网络参数实施扰动,并模拟人类记忆曲线对主网络超参数clip进行持续性调整;将稳定行走时长达到预设时长的双足机器人移至难度等级更高的地形,重复各网络参数更新过程;不断进行课程学习,直至所有双足机器人的累计奖励信息及稳定行走时长均达到预设值。