摘要
本发明涉及无人艇领域,具体涉及一种基于安全强化学习的无人艇姿态控制方法,包括如下步骤:获取无人艇的动作状态;将动作状态作为马尔科夫决策模型的状态空间,生成动作输入空间;根据无人艇姿态的安全性约束,设计安全强化学习算法,在考虑安全性约束成本条件下,动态生成控制无人艇动作的动作序列,并输出其中的最优动作序列;评估无人艇在执行所述最优动作序列后,无人艇的姿态是否在安全阈值内;将动作序列作为无人艇交互数据储存至经验回放缓冲区中作为经验,以供安全强化学习算法不断学习。在安全强化学习算法的优化目标中引入了安全性约束,用于平衡最大化奖励和安全约束成本,避免了无人艇只关注最大化奖励而忽略安全性的问题。