摘要
本发明提出了一种基于奖励函数改进的深度强化学习路径规划方法及系统,涉及路径规划技术领域,所述方法包括构建深度强化学习训练环境模型;采集设置于深度强化学习训练环境模型中自主移动机器人的可行状态信息和位置状态信息;构建与深度确定性策略梯度算法和策略学习算法对应的状态空间模型,并使状态空间模型输出状态空间函数和动作空间函数;获取自主移动机器人所有可选状态动作对应的奖励函数;将状态空间函数、动作空间函数及奖励函数存入经验池,并从经验池中选取样本,以更新深度确定性策略梯度算法和策略学习算法;重复上述步骤,直到自主移动机器人移动至目标点,以完成路径规划。本发明有助于提升路径规划的收敛速度和数据探索效率。