摘要
本发明提供了一种无人机视觉自主导航方法,包括将无人机与环境的交互建模为部分可观测马尔科夫决策过程,该决策过程的目标是构建一个最优的视觉运动策略,使无人机能够选择动作,以最大化累计折扣奖励的期望值;构建跨模态对比学习模型,采用基于演员‑评论家结构的近端策略优化算法对视觉运动策略进行训练。通过将RGB图像的信息与深度图像的信息进行对齐,本发明不仅能够保留任务相关特征,还能显著提升特征表示的鲁棒性和泛化能力,为无人机在复杂环境中的自主导航提供了一种高效、稳定的解决方案。本发明的方法不仅适用于无人机自主导航任务,还能够扩展到其他需要高鲁棒性和迁移能力的感知与控制领域,具有较高的理论与应用价值。