基于PER-MATD3深度强化学习的无人机动态博弈模型及其工作方法
申请号:CN202411955221
申请日期:2024-12-27
公开号:CN119886343A
公开日期:2025-04-25
类型:发明专利
摘要
本发明公开了一种基于PER‑MATD3深度强化学习的无人机动态博弈模型及其工作方法,包括MATD3算法模块、PER排序模块以及样本重要性评价模块,本发明构建了MATD3的算法框架,并引入优先经验回放(Prioritized Experience Replay,PER)方法对其进行改进,PER方法根据每个经验数据的重要性对其进行优先级排序,并且能够在采样时多次选择更重要的经验,从而提高学习效率,但由于PER方法会频繁地使用具有较高TD误差的样本,虽然能够提高学习效率,会不可避免地带来偏差,为了避免训练时出现偏差导致振荡甚至离散,引入重要性采样方法,适当降低TD误差高的样本权重,使训练时每个样本在梯度下降时的影响相同,从而保证训练结果的收敛性。
技术关键词
深度强化学习
样本
网络
算法模块
噪声边缘
动态
策略
随机噪声
构建无人机
算法框架
误差
数学
采样方法
因子
超参数
偏差
决策