一种改进深度强化学习PPO的七自由度机械臂轨迹规划方法
申请号:CN202510870903
申请日期:2025-06-26
公开号:CN120503206A
公开日期:2025-08-19
类型:发明专利
摘要
本发明公开了一种改进深度强化学习PPO的七自由度机械臂轨迹规划方法,属于工业机器人智能控制技术领域。针对深度强化学习在七自由度冗余机械臂轨迹规划中面临的学习能力不好和收敛速度慢的问题,设计分阶段奖励函数,通过两个阶段逐步引导七自由度机械臂完成任务。设计一种分层经验回放机制,依据奖励值将训练过程中的经验分别存储在优先经验存储区和次级经验存储区;通过无偏采样策略平衡两类存储区的采样比例,提升经验样本的利用率,与传统的优先经验回放机制相比,该方法在减少计算量的同时,有效避免了训练过程中的过拟合问题。通过分阶段奖励函数和分层经验回放机制有效缩短七自由度机械臂在复杂环境中的学习时间,显著提高了收敛速度。
技术关键词
深度强化学习
冗余机械臂
控制机械臂运动
分阶段
七自由度机械臂
机械臂末端执行器
工业机器人智能控制技术
关节
存储结构
逆运动学
分层
机制
策略
规划
轨迹
障碍物
样本