一种基于课程强化学习的空战智能决策方法、装置、设备及介质

申请号：CN202510444767

申请日期：2025-04-10

公开号：CN120295129A

公开日期：2025-07-11

类型：发明专利

摘要

本发明提供了一种基于课程强化学习的空战智能决策方法、装置、设备及介质，涉及强化学习领域。包括：基于多组初始状态数据确定对应的战斗优势指标；基于战斗优势指标对初始状态数据进行排序后存入难度引导的状态池；从难度引导的状态池中按照难度递增的方式更新渐进式滑动缓冲区中的初始状态数据；动态制定中间任务目标，直至为制定最终任务目标；从渐进式滑动缓冲区中采样当前初始状态数据，将当前初始状态数据输入SAC模型的策略网络得到当前动作；至少基于中间任务目标、当前动作和当前初始状态数据，对SAC模型进行训练，直至达到最终任务目标得到训练完毕的SAC模型以用于做出智能决策，提高了飞机在复杂环境中的决策能力与适应能力。

技术关键词

深度强化学习智能决策方法飞机数据策略网络仿真环境指标智能决策装置输出模块动能导弹模型训练模块武器可读存储介质动态处理器场景雷达