一种基于深度强化学习的多机器人协同围捕方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于深度强化学习的多机器人协同围捕方法
申请号:CN202510711313
申请日期:2025-05-29
公开号:CN120578168A
公开日期:2025-09-02
类型:发明专利
摘要
本发明公开了一种基于深度强化学习的多机器人协同围捕方法,包括:建立机器人围捕逃逸环境;设计基于阶段学习机制的机器人围捕奖励函数;设计改进的MAPPO算法,改进的MAPPO算法包含多个Critic网络和多个Actor网络;使用Critic网络估计机器人的局部优势值,采用非线性混合网络根据局部优势值计算全局优势值;使用全局优势值计算Actor网络的目标函数,使用围捕奖励函数计算损失函数;根据损失函数对Critic网络参数进行更新,根据目标函数对Actor网络参数进行更新,得到多机器人协同围捕策略;本发明能够缓解深度强化学习算法中的奖励稀疏问题,优化多个围捕机器人之间的奖励分配,减少Critic网络的价值估计误差并提高计算精度,从提升机器人执行围捕任务时的完成效率和成功率。
技术关键词
围捕方法 多机器人协同 混合网络 阶段 参数 非线性 深度强化学习算法 策略 归一化模块 梯度下降法 轨迹 估计误差 机制 顶点 速度 短距离