基于长短期反馈强化学习的生成式智能体环境交互方法
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
基于长短期反馈强化学习的生成式智能体环境交互方法
申请号:
CN202411121877
申请日期:
2024-08-15
公开号:
CN118966279A
公开日期:
2024-11-15
类型:
发明专利
摘要
本申请提供了一种基于长短期反馈强化学习的生成式智能体环境交互方法,涉及生成式智能体领域,方法包括:构建生成式智能体,包括:评估模块、反思模块;通过生成式智能体观察环境,得到短时反馈;评估模块接收短时反馈,输出奖励信号;反思模块接收短时反馈和奖励信号,输出长期反馈;生成式智能体结合短时反馈和长期反馈进行动作决策,输出动作;环境接收动作,做出动作决策后,进入下一状态,完成一次生成式智能体环境交互。用SLM模型代替LLM模型,节省成本,提高反应速度,降低部署难度。
技术关键词
交互方法
微调方法
强化学习方法
网络接口
决策
模块
可读存储介质
信号
设备通信
电子设备
存储器
计算机
指令
处理器
参数
代表
算法
序列
定义