面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端
申请号:CN202410729427
申请日期:2024-06-06
公开号:CN118586282A
公开日期:2024-09-03
类型:发明专利
摘要
本发明公开了面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端,包括采集智能体与仿真环境交互产生的经验数据,包括智能体执行的动作,仿真环境的当前状态信息和下一个状态信息,以及仿真外部奖励信号;利用全连接神经网络构建势能函数网络模型,获取智能体在当前状态和下一个状态的仿真环境的势能值;根据势能值差,通过奖励塑造函数计算内在奖励信号并和仿真外部奖励信号合并,得到最终的奖励信号;利用损失函数对势能函数网络模型进行更新,调整智能体执行动作的策略,使智能体在与环境的交互中获得最大化累积奖励;本发明利用状态之间的新旧策略的优势值差异作为内在奖励,提高了稀疏连续控制任务中的智能体性能,降低了计算成本。
技术关键词
仿真环境
深度强化学习算法
信号
数据获取模块
更新网络参数
动作策略
处理器
传播算法
终端
计算方法
超参数
可读存储介质
存储器
误差
定义