摘要
本发明属于无人船智能控制技术领域,提供一种基于MAPPO的无人船编队路径规划训练系统,包括仿真环境;多个Actor,基于其策略网络存储的动作策略及所处状态确定采取的动作并更新下一步状态;奖励单元,基于各个Actor的动作及所处状态对其进行奖励;经验池,用于存储各个Actor执行当前的动作策略所生成的训练样本;价值网络,用于对训练样本的价值进行评估;关键路径单元,用于从当前动作策略及若干个历史动作策略生成的路径中确定关键路径样本组合;优化单元,基于MAPPO优化算法,联合使用训练样本及关键路径样本组合优化策略网络及价值网络。本发明的技术方案能够显著提高复杂环境下的路径规划训练效果。