基于视觉表征的单智能体强化学习模型的训练方法、装置、电子设备、存储介质和计算机程序产品
申请号:CN202411601987
申请日期:2024-11-11
公开号:CN119580029B
公开日期:2025-07-22
类型:发明专利
摘要
本公开涉及一种基于视觉表征的单智能体强化学习模型的训练方法、装置、电子设备、存储介质和计算机程序产品,单智能体强化学习模型单智能体强化学习模型包括在线状态编码器、动作编码器、强化学习网络和辅助任务网络,辅助任务网络包括状态预测模型,根据目标智能体当前时间段基于针对目标智能体的观测图像而得到的状态信息和动作信息,以及当前时间段的奖赏信息,通过辅助任务网络从视觉表征的角度出发,学习目标智能体的状态表征和动作表征,通过强化学习网络为目标智能体选择最佳决策动作,并且,充分利用强化学习中时间段的时序信息,可以实现单智能体在具有挑战的以图像作为状态输入的复杂连续控制任务中的性能和样本效率提升。
技术关键词
强化学习模型
预测特征
状态编码器
动作特征
强化学习网络
时间段
动作预测模型
视觉
在线
计算机程序产品
训练装置
处理器
计算机可执行指令
电子设备
多层感知机
图像