摘要
本发明公开了一种基于DDPG的雷达干扰决策方法,该方法首先采用马尔科夫决策过程对雷达干扰交互场景,进行强化学习问题建模。其次针对行强化学习问题建模,使用改进的DDPG算法,解决混合动作空间中的干扰决策问题。然后在模拟突防中,使用改进的DDPG算法进行干扰决策,产生干扰动作回传给强化学习问题建模,获得下一状态、返回干扰动作的奖励函数;循环迭代本步骤,直到DDPG算法在每一轮突防中,返回奖励函数的总和趋于稳定。最后在实际突防中,使用迭代得到的DDPG算法,根据状态输入进行干扰动作决策。本发明可在少量先验知识的基础上,从干扰机与雷达干扰场景的交互中进行学习,实现干扰突防的效果。