摘要
本发明公开了一种基于深度强化学习的机械臂6D位姿抓取方法,包括:在仿真环境中搭建用于机械臂6D位姿抓取的实验平台;在仿真环境中构建6D位姿抓取网络;初始化经验回放池为空、随机初始化策略网络和价值网络的参数以及目标策略网络和目标价值网络的参数;收集经验样本,并存入经验回放池;当经验样本达到阈值,开始在仿真环境中训练价值网络和策略网络;搭建机械臂实物平台,将仿真环境下训练好的6D位姿抓取网络移植到实物平台,机械臂在真实环境下进行动作决策实现物体抓取。本方法提出的基于深度强化学习的机械臂6D位姿抓取方法,基于在线专家演示的生成增强数据样本,极大丰富了专家经验样本,提高了经验池中高质量样本的比例,采用基于深度神经网络的奖励值评估方法精细评估机械臂的抓取位姿优劣,有效提高了机械臂在非结构化环境中抓取任意位姿物体的成功率。