摘要
本发明公开了基于分块强化学习的多无人机轨迹和通信用频优化方法,包括步骤:(1)在复杂电磁频谱环境下建立无人机基站服务地面用户的系统模型;(2)建立包括K架无人机、M个地面用户、P个无人机可用通信频段的信道模型,得到地面用户通信速率;(3)构建系统性能评价指标,建立用户公平性加权速率和最大化优化问题;(4)将优化问题建模为分布式可观测马尔可夫决策过程,并采用分块强化学习方法训练无人机智能体。本发明利用分块强化学习技术,针对干扰环境无人机服务通信用户场景,设计了双网络分块联合优化算法,在无人机发射功率有限的情况下,提升联合优化的性能上限,加速算法的收敛过程,最大化干扰环境下用户的公平性加权速率和。