基于长短期反馈强化学习的生成式智能体环境交互方法

申请号：CN202411121877

申请日期：2024-08-15

公开号：CN118966279A

公开日期：2024-11-15

类型：发明专利

摘要

本申请提供了一种基于长短期反馈强化学习的生成式智能体环境交互方法，涉及生成式智能体领域，方法包括：构建生成式智能体，包括：评估模块、反思模块；通过生成式智能体观察环境，得到短时反馈；评估模块接收短时反馈，输出奖励信号；反思模块接收短时反馈和奖励信号，输出长期反馈；生成式智能体结合短时反馈和长期反馈进行动作决策，输出动作；环境接收动作，做出动作决策后，进入下一状态，完成一次生成式智能体环境交互。用SLM模型代替LLM模型，节省成本，提高反应速度，降低部署难度。

技术关键词

交互方法微调方法强化学习方法网络接口决策模块可读存储介质信号设备通信电子设备存储器计算机指令处理器参数代表算法序列定义