摘要
本发明提供一种基于深度强化学习算法的飞艇自主制导飞行方法,包括:利用再分析气象数据和飞艇运动学模型构建环境模型;建立马尔可夫决策过程模型,其中,马尔可夫决策过程模型的动作空间根据环境模型设计;基于环境模型和马尔可夫决策过程模型,采用深度强化学习算法离线训练预先构建的智能体,得到飞艇自主制导飞行智能体;基于飞艇自主制导飞行智能体确定自主制导飞行策略。基于环境模型和马尔可夫决策过程模型,通过深度强化学习算法训练出的智能体能够考虑到多种环境因素和飞艇的动力学约束,从而制定出更加安全、可靠的飞行策略。这种决策方式不依赖于工程人员的经验,而是基于大量的模拟训练数据和实时观测数据,从而提高了决策的可靠性和准确性。