基于大语言模型增强的可解释强化学习决策系统及方法

申请号：CN202511210997

申请日期：2025-08-27

公开号：CN120722758B

公开日期：2025-11-14

类型：发明专利

摘要

本申请涉及一种基于大语言模型增强的可解释强化学习决策系统及方法。系统包括：白盒策略模块，含均采用软决策树构建的上层和下层策略模型，上层根据对抗态势数据和预设奖励函数决策输出上层子目标，下层依据上层子目标和对抗态势数据决策输出无人机控制量及行动轨迹数据；自然语言解释模块，利用决策行为解释大模型处理上、下层策略模型的软决策树参数、运算过程数据、预设奖励函数及无人机行动轨迹数据，输出行为解释内容；策略优化模块，利用决策行为优化大模型分析行为解释内容及无人机行动轨迹数据，结合交互数据提供奖励函数修改建议和失败轨迹修复方案。采用本系统可提高无人机对抗决策的智能性、实时性和可解释性。

技术关键词

策略决策系统大语言模型轨迹自然语言计数器白盒生成无人机模块参数意图节点数据变化趋势逻辑决策方法模式矩阵