摘要
本发明公开一种基于强化学习的无人机导航避障控制律设计方法,包括以下步骤:建立无人机导航避障仿真训练环境;构建无人机的马尔科夫决策模型;训练引入时序注意力的深度强化学习SAC算法,以获取具有根据环境状态做出合适控制动作的神经网络参数;部署训练好的神经网络模型,进行导航避障任务。通过引入时序信息的无人机导航避障马尔可夫决策模型,训练引入时序注意力的深度强化学习算法,使其能够获知之前一段时间的飞行状态及障碍物信息,以达到加快算法收敛速度、提高任务成功率,并实现了无人机的全自动导航避障任务,为复杂环境中无人机自主、安全、有效的导航避障提供了实际有效的思路。