基于奖励函数改进的深度强化学习路径规划方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于奖励函数改进的深度强化学习路径规划方法及系统
申请号:CN202410892079
申请日期:2024-07-04
公开号:CN118760168B
公开日期:2025-01-21
类型:发明专利
摘要
本发明提出了一种基于奖励函数改进的深度强化学习路径规划方法及系统,涉及路径规划技术领域,所述方法包括构建深度强化学习训练环境模型;采集设置于深度强化学习训练环境模型中自主移动机器人的可行状态信息和位置状态信息;构建与深度确定性策略梯度算法和策略学习算法对应的状态空间模型,并使状态空间模型输出状态空间函数和动作空间函数;获取自主移动机器人所有可选状态动作对应的奖励函数;将状态空间函数、动作空间函数及奖励函数存入经验池,并从经验池中选取样本,以更新深度确定性策略梯度算法和策略学习算法;重复上述步骤,直到自主移动机器人移动至目标点,以完成路径规划。本发明有助于提升路径规划的收敛速度和数据探索效率。
技术关键词
自主移动机器人 深度强化学习 位置状态信息 学习算法 状态空间模型 障碍物 路径规划方法 策略 路径规划系统 表达式 数据采集模块 雷达 坐标系 路径规划技术 端点 网络接口