一种基于深度强化学习的多机器人协同围捕方法

申请号：CN202510711313

申请日期：2025-05-29

公开号：CN120578168A

公开日期：2025-09-02

类型：发明专利

摘要

本发明公开了一种基于深度强化学习的多机器人协同围捕方法，包括：建立机器人围捕逃逸环境；设计基于阶段学习机制的机器人围捕奖励函数；设计改进的MAPPO算法，改进的MAPPO算法包含多个Critic网络和多个Actor网络；使用Critic网络估计机器人的局部优势值，采用非线性混合网络根据局部优势值计算全局优势值；使用全局优势值计算Actor网络的目标函数，使用围捕奖励函数计算损失函数；根据损失函数对Critic网络参数进行更新，根据目标函数对Actor网络参数进行更新，得到多机器人协同围捕策略；本发明能够缓解深度强化学习算法中的奖励稀疏问题，优化多个围捕机器人之间的奖励分配，减少Critic网络的价值估计误差并提高计算精度，从提升机器人执行围捕任务时的完成效率和成功率。

技术关键词

围捕方法多机器人协同混合网络阶段参数非线性深度强化学习算法策略归一化模块梯度下降法轨迹估计误差机制顶点速度短距离