基于因果大语言模型的强化学习决策优化方法、系统及设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于因果大语言模型的强化学习决策优化方法、系统及设备
申请号:CN202510944141
申请日期:2025-07-09
公开号:CN120911539A
公开日期:2025-11-07
类型:发明专利
摘要
本发明涉及人工智能技术领域,公开了基于因果大语言模型的强化学习决策优化方法、系统及设备,包括以下步骤:初始化智能体及其策略网络;获取交互产生的历史序列决策的轨迹信息;采用大语言模型从轨迹信息中提取因果变量,构建结构因果模型;得到智能体策略驱动因果干预机制,动态修正结构因果模型中的因果关系;根据修正后的结构因果模型中提取的任务相关因果链,生成与因果关系对应的语义子目标;设计融合语义相似度的多模态奖励函数;采用得到的子目标与奖励更新策略网络。本发明解决现有技术中强化学习智能体在复杂环境中的低学习效率、适应性不足以及缺乏有效推理能力的问题,且具有在动态环境中的决策效率高的特点。
技术关键词
大语言模型 决策优化方法 动态修正结构 策略 融合语义 变量 轨迹 网络 空间拓扑关系 图像多模态 序列 计算机设备 人工智能技术 语义向量 生成指令 文本 预测误差