一种非专家数据辅助的元强化学习跳频干扰资源分配方法

申请号：CN202510026442

申请日期：2025-01-08

公开号：CN119865208B

公开日期：2025-09-26

类型：发明专利

摘要

本公开实施例是关于一种非专家数据辅助的元强化学习跳频干扰资源分配方法，包括：根据通信对抗场景构建跳频干扰资源分配问题；将跳频干扰资源分配问题建模为马尔可夫决策过程；随机初始化元策略得到初始策略网络；基于MAML算法对初始策略网络进行元训练，其中，元训练包括：在特定任务适应阶段，基于非专家数据，利用强化学习损失函数和行为克隆损失函数对初始策略网络进行优化训练，得到特定任务策略，并计算各干扰任务的强化学习损失；在元优化阶段，最小化所有干扰任务的强化学习损失，并得到优化后的分配策略；根据新的干扰任务对优化后的分配策略进行微调。本公开结合强化学习和行为克隆从非专家数据中提取有用信息，实现高效的策略探索。

技术关键词

跳频干扰资源分配方法策略数据网络阶段参数决策干扰加噪声算法场景信道功率频率符号信号轨迹因子节点