目标驱动导航的经验回放增强的强化学习方法、计算机设备及介质

申请号：CN202510657141

申请日期：2025-05-21

公开号：CN120540080B

公开日期：2025-11-21

类型：发明专利

摘要

本发明提供了一种目标驱动导航的经验回放增强的强化学习方法、计算机设备及介质，属于机器人自主导航技术领域。该方法通过构建机器人仿真环境，设计基于Actor‑Critic架构的深度强化学习算法，设计包含碰撞、到达目标点、线速度及避障行为奖惩机制的奖励函数，并引入贪婪经验回放机制，利用TD误差对经验数据进行重要性排序，结合贪婪采样与随机采样策略动态调整经验抽取概率，同时通过超参数优化控制训练过程。本发明采用上述的一种目标驱动导航的经验回放增强的强化学习方法、计算机设备及介质，可提高机器人在动态复杂环境中的导航效率和成功率，适用于工业仓储机器人、无人驾驶车辆、智能服务机器人等多种场景。

技术关键词

强化学习方法深度强化学习算法机器人仿真概率分布函数传感器数据采集模块计算机设备奖惩机制超参数智能服务机器人策略更新网络更新方法仓储机器人无人驾驶车辆机器人模型障碍物