基于因果大语言模型的强化学习决策优化方法、系统及设备

申请号：CN202510944141

申请日期：2025-07-09

公开号：CN120911539A

公开日期：2025-11-07

类型：发明专利

摘要

本发明涉及人工智能技术领域，公开了基于因果大语言模型的强化学习决策优化方法、系统及设备，包括以下步骤：初始化智能体及其策略网络；获取交互产生的历史序列决策的轨迹信息；采用大语言模型从轨迹信息中提取因果变量，构建结构因果模型；得到智能体策略驱动因果干预机制，动态修正结构因果模型中的因果关系；根据修正后的结构因果模型中提取的任务相关因果链，生成与因果关系对应的语义子目标；设计融合语义相似度的多模态奖励函数；采用得到的子目标与奖励更新策略网络。本发明解决现有技术中强化学习智能体在复杂环境中的低学习效率、适应性不足以及缺乏有效推理能力的问题，且具有在动态环境中的决策效率高的特点。

技术关键词

大语言模型决策优化方法动态修正结构策略融合语义变量轨迹网络空间拓扑关系图像多模态序列计算机设备人工智能技术语义向量生成指令文本预测误差