一种基于强化学习的双臂协同规划方法、系统、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于强化学习的双臂协同规划方法、系统、设备及介质
申请号:CN202511536392
申请日期:2025-10-27
公开号:CN121004618A
公开日期:2025-11-25
类型:发明专利
摘要
本发明公开了一种基于强化学习的双臂协同规划方法、系统、设备及介质,属于机械臂控制技术领域,包括:构建马尔可夫决策模型;根据状态空间中的当前状态,生成控制动作,得到左臂末端执行器和右臂末端执行器的三维位移增量指令;响应三维位移增量指令执行双臂协同控制后,计算混合奖励函数;对执行轨迹进行经验增强处理,对失败轨迹进行目标重设,生成伪目标经验并将原始经验和伪目标经验存储至回放缓存;根据回放缓存中的经验样本,更新策略网络和Q值网络参数,完成双臂协同轨迹规划策略的优化。本发明通过融合最大熵强化学习与经验回放机制,有效解决了双臂协同规划中的稀疏奖励和局部最优问题,提升了训练效率和策略泛化能力。
技术关键词
末端执行器 协同规划方法 策略 双臂机器人 轨迹 机械臂控制技术 逆运动学 障碍物 指令 参数 网络架构 决策 机制 算法 规划系统 样本 关节 处理器