一种基于强化学习的无人机导航避障控制律设计方法

申请号：CN202410721088

申请日期：2024-06-05

公开号：CN118605559A

公开日期：2024-09-06

类型：发明专利

摘要

本发明公开一种基于强化学习的无人机导航避障控制律设计方法，包括以下步骤：建立无人机导航避障仿真训练环境；构建无人机的马尔科夫决策模型；训练引入时序注意力的深度强化学习SAC算法，以获取具有根据环境状态做出合适控制动作的神经网络参数；部署训练好的神经网络模型，进行导航避障任务。通过引入时序信息的无人机导航避障马尔可夫决策模型，训练引入时序注意力的深度强化学习算法，使其能够获知之前一段时间的飞行状态及障碍物信息，以达到加快算法收敛速度、提高任务成功率，并实现了无人机的全自动导航避障任务，为复杂环境中无人机自主、安全、有效的导航避障提供了实际有效的思路。

技术关键词

控制律设计方法神经网络参数注意力表达式 SAC算法训练神经网络构建无人机推力深度强化学习模型神经网络模型深度强化学习算法仿真环境障碍物时序特征距离探测器决策