面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端

申请号：CN202410729427

申请日期：2024-06-06

公开号：CN118586282A

公开日期：2024-09-03

类型：发明专利

摘要

本发明公开了面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端，包括采集智能体与仿真环境交互产生的经验数据，包括智能体执行的动作，仿真环境的当前状态信息和下一个状态信息，以及仿真外部奖励信号；利用全连接神经网络构建势能函数网络模型，获取智能体在当前状态和下一个状态的仿真环境的势能值；根据势能值差，通过奖励塑造函数计算内在奖励信号并和仿真外部奖励信号合并，得到最终的奖励信号；利用损失函数对势能函数网络模型进行更新，调整智能体执行动作的策略，使智能体在与环境的交互中获得最大化累积奖励；本发明利用状态之间的新旧策略的优势值差异作为内在奖励，提高了稀疏连续控制任务中的智能体性能，降低了计算成本。

技术关键词

仿真环境深度强化学习算法信号数据获取模块更新网络参数动作策略处理器传播算法终端计算方法超参数可读存储介质存储器误差定义