摘要
本申请实施例提供一种机器人运动控制方法和设备,该方法包括将第一历史数据输入训练好的特征提取网络,获得第一特征数据,第一特征数据包括地形特征和/或行为特征,将当前第一动作指令、第一特征数据和第二历史数据输入训练好的策略网络,获得当前第一动作,训练好的策略网络是基于特征提取网络、策略网络和对抗评价网络所构成的融合框架,根据强化学习算法对策略网络进行训练获得的,根据当前第一动作,确定对应的当前第一力矩,根据当前第一力矩驱动机器人执行当前第一动作。本实施例的方法,只需结合少量专家数据集就可以很轻松的训练得到策略网络实现类人运动,提高了行为风格的模仿质量。