面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端
申请号:CN202410729427
申请日期:2024-06-06
公开号:CN118586282A
公开日期:2024-09-03
类型:发明专利
摘要
本发明公开了面向稀疏连续控制任务的奖励塑造方法、装置、介质及终端,包括采集智能体与仿真环境交互产生的经验数据,包括智能体执行的动作,仿真环境的当前状态信息和下一个状态信息,以及仿真外部奖励信号;利用全连接神经网络构建势能函数网络模型,获取智能体在当前状态和下一个状态的仿真环境的势能值;根据势能值差,通过奖励塑造函数计算内在奖励信号并和仿真外部奖励信号合并,得到最终的奖励信号;利用损失函数对势能函数网络模型进行更新,调整智能体执行动作的策略,使智能体在与环境的交互中获得最大化累积奖励;本发明利用状态之间的新旧策略的优势值差异作为内在奖励,提高了稀疏连续控制任务中的智能体性能,降低了计算成本。
技术关键词
仿真环境 深度强化学习算法 信号 数据获取模块 更新网络参数 动作策略 处理器 传播算法 终端 计算方法 超参数 可读存储介质 存储器 误差 定义