摘要
本发明公开了一种基于深度强化学习的多机器人协同围捕方法,包括:建立机器人围捕逃逸环境;设计基于阶段学习机制的机器人围捕奖励函数;设计改进的MAPPO算法,改进的MAPPO算法包含多个Critic网络和多个Actor网络;使用Critic网络估计机器人的局部优势值,采用非线性混合网络根据局部优势值计算全局优势值;使用全局优势值计算Actor网络的目标函数,使用围捕奖励函数计算损失函数;根据损失函数对Critic网络参数进行更新,根据目标函数对Actor网络参数进行更新,得到多机器人协同围捕策略;本发明能够缓解深度强化学习算法中的奖励稀疏问题,优化多个围捕机器人之间的奖励分配,减少Critic网络的价值估计误差并提高计算精度,从提升机器人执行围捕任务时的完成效率和成功率。