一种基于时序任务持续强化学习的机械臂抓取策略优化方法
申请号:CN202410831223
申请日期:2024-06-26
公开号:CN118578396B
公开日期:2024-11-08
类型:发明专利
摘要
本发明公开了一种基于时序任务持续强化学习的机械臂抓取策略优化方法,包括步骤1:收集机械臂在执行到达任务时的机械臂的状态向量及目标位置;步骤2:构建深度强化学习的神经网络模型;步骤3:根据机械臂在执行序列任务的到达任务时的机械臂的状态向量及目标位置训练网络模型,得到模型Ⅰ;步骤4:机械臂执行模型Ⅰ,当到达目标位置时,进行抓取任务的训练,得到模型Ⅱ;步骤5:使用模型Ⅰ对模型Ⅱ进行蒸馏得到模型Ⅲ,得到优化后的机械臂抓取策略;步骤6:评估模型Ⅲ的性能,检查其在不同任务场景上的表现步骤以确认模型Ⅲ是否收敛。本发明在时序任务持续强化学习的机械臂抓取中表现出更快的收敛速度和更短的抓取时间。
技术关键词
深度强化学习
神经网络模型
策略优化方法
机械臂关节
序列
梯度下降算法
蒸馏
抓取动作
策略更新
仿真环境
参数
编码向量
时序
标签
数据