摘要
一种基于深度强化学习的无人机通信系统策略优化方法,建立无人机通信系统模型,包括一个无人机、RIS以及多个地面接收用户,在给出特定的信道状态信息(CSI)情况下,利用深度强化学习(DRL)技术,通过改进的TD3算法improvement‑TD3对最大化速率C进行优化,求得最优的波束成形矩阵和相移矩阵。本发明在现有的TD3算法中引入了熵正则化,以增强探索性,促使智能体更多地探索环境,平衡探索与利用之间的关系,最终获得最优的发射波束成形矩阵和RIS相移,避免陷入局部最优解,提高学习的鲁棒性和泛化能力。