摘要
本发明涉及一种未知环境下基于深度强化学习的连续空间路径规划方法,属于路径规划技术领域,包括获取移动机器人的目标方向、目标距离、移动速度及障碍物距离,根据障碍物距离生成一障碍物特征向量,定义一状态向量;构建一包括策略网络、目标策略网络的路径规划模型;初始化一隐藏特征向量并将其与移动机器人的状态向量输入策略网络得到更新后的隐藏特征向量和动作向量;移动机器人根据动作向量执行相应动作,通过定义状态向量并结合策略网络,实现了机器人在未知环境中的动态路径规划,通过隐藏特征向量传递时序信息,使机器人能够结合状态向量生成动作向量,从而提升决策的连续性和适应性,能够更高效地调整路径,提高避障成功率和导航效率。