摘要
本发明公开了一种基于元强化学习的水下滑翔机滚动路径规划方法,总决策网络包括:第一卷积分支模块、第二卷积分支模块、特征拼接模块和全连接神经网络,总决策网络的输入为水下滑翔机当前位置的状态st=(T′,C,Δx,Δy)、输出为动作at=Δrt,Δrt为水下滑翔机进行下一剖面运动所需的航向角调整量,T′为水下滑翔机当前位置对应的地形高度矩阵,C为水下滑翔机当前位置对应的洋流速度数据,Δx为任务终点的经度坐标xT与水下滑翔机当前位置的经度坐标x之差,Δy为任务终点的纬度坐标yT与水下滑翔机当前位置的纬度坐标y之差。本发明的总决策网络降低了航行轨迹中由洋流造成的航行偏差,提高了最优路径策略生成的效率,降低了水下滑翔机的能量消耗。