基于因果大语言模型的强化学习决策优化方法、系统及设备
申请号:CN202510944141
申请日期:2025-07-09
公开号:CN120911539A
公开日期:2025-11-07
类型:发明专利
摘要
本发明涉及人工智能技术领域,公开了基于因果大语言模型的强化学习决策优化方法、系统及设备,包括以下步骤:初始化智能体及其策略网络;获取交互产生的历史序列决策的轨迹信息;采用大语言模型从轨迹信息中提取因果变量,构建结构因果模型;得到智能体策略驱动因果干预机制,动态修正结构因果模型中的因果关系;根据修正后的结构因果模型中提取的任务相关因果链,生成与因果关系对应的语义子目标;设计融合语义相似度的多模态奖励函数;采用得到的子目标与奖励更新策略网络。本发明解决现有技术中强化学习智能体在复杂环境中的低学习效率、适应性不足以及缺乏有效推理能力的问题,且具有在动态环境中的决策效率高的特点。
技术关键词
大语言模型
决策优化方法
动态修正结构
策略
融合语义
变量
轨迹
网络
空间拓扑关系
图像多模态
序列
计算机设备
人工智能技术
语义向量
生成指令
文本
预测误差