摘要
一种基于障碍物地形信息优化的多智能体围捕方法,包括:获取各追捕者智能体的观测信息;基于各追捕者智能体的观测信息结合强化学习模型进行计算,得到各追捕者智能体的动作执行指令;基于各追捕者智能体的动作执行指令进行相对应的围捕动作;可以利用障碍物作为地形优势封锁猎物的行动路线,完成围猎任务;通过注意力编码保证智能体的特征嵌入与智能体的数量无关,有效缓解多智能体强化学习中的大规模高维数据利用效率低和维度灾难问题,提升了学习效率;通过关键点离散的方法将不规则和非凸障碍物转换为简化的凸壳形式,使得追捕者能够更高效地利用地形优势进行围捕;通过人工势场法进行避障处理,能够避免局部极小。