摘要
本发明涉及机械臂轨迹跟踪领域,尤其涉及一种基于事后筛选经验回放的机器人跟踪控制学习方法,包括:初始化目标网络参数和经验池,并将状态转移元组贮存至经验池;当经验池中状态转移元组数量大于预设状态转移元组数量时,根据机器人机械臂的轨迹平滑度以及节点共变度确定动作复杂状态;根据动作复杂状态确定经验池优化方式;选取预估位置偏差大于或等于标准预估位置偏差的经验作为筛选经验,并根据筛选经验数量确定经验选择方式;对cr it ic网络和actor网络进行更新,并分别针对cr it ic网络和actor网络的target网络进行软更新;根据奖励评估值针对cr it ic网络的target网络以及actor网络的target网络的软更新权重进行调节,本发明提高了模型的跟踪效果和跟踪稳定性。