摘要
本申请涉及一种基于大语言模型增强的可解释强化学习决策系统及方法。系统包括:白盒策略模块,含均采用软决策树构建的上层和下层策略模型,上层根据对抗态势数据和预设奖励函数决策输出上层子目标,下层依据上层子目标和对抗态势数据决策输出无人机控制量及行动轨迹数据;自然语言解释模块,利用决策行为解释大模型处理上、下层策略模型的软决策树参数、运算过程数据、预设奖励函数及无人机行动轨迹数据,输出行为解释内容;策略优化模块,利用决策行为优化大模型分析行为解释内容及无人机行动轨迹数据,结合交互数据提供奖励函数修改建议和失败轨迹修复方案。采用本系统可提高无人机对抗决策的智能性、实时性和可解释性。