摘要
本发明涉及全尺寸直升机目标悬停方法领域,公开了一种基于强化学习的全尺寸直升机目标悬停方法,首先,建立了全尺寸直升机UH‑60的动力学模型;接着对悬停任务的奖励机制进行了改进,大幅度拓宽了直升机的探索空间;但也因此导致了强化学习算法的收敛速度显著降低,为了加速收敛,引入了基于随机网络分布的好奇心探索机制,以提升训练效率;此外,考虑到直升机动力学的高度非线性和复杂性,为了更好地捕捉状态信息中的时间和空间上的长距离相关性,本发明在强化学习的Actor网络中引入了自注意力机制,最后,对模型进行训练,并展示训练成果。