摘要
本方案公开了一种集群覆盖搜索模型的训练方法和装置,该方法包括:基于智能体集群所在的环境信息和位置信息集合,构建当前时间步的状态矩阵;将状态矩阵输入初始强化学习模型,通过actor网络预测下一个时间步的行为决策信息;控制各个智能体分别按照移动方向飞行,根据第二位置信息集合确定智能体集群对任务空间的覆盖率;critic网络根据当前时间步、下一时间步的状态矩阵和优势函数计算本次训练的优势值;基于状态矩阵、行为决策信息、优势值计算本次训练的损失值,并根据损失值更新模型。本方案能够确保各智能体能够合理分配任务,避免路径冲突和资源浪费,从而提升系统的整体覆盖效率,实现多目标的平衡和优化。