摘要
本发明提出了一种基于谷歌足球模拟器的强化学习方法,包括:基于谷歌足球模拟器构建谷歌足球环境,获取当前时刻的观测信息;根据观测信息利用训练好的大语言模型生成动作提示信息;根据动作提示信息,利用智能体从策略网络中选择动作并反馈到所述谷歌足球环境;根据动作执行后谷歌足球环境下的足球比赛视频和动作提示信息,利用训练好的视频文本检索模型计算视频与文本的相似度,进而得到相似度奖励;根据观测信息计算足球基础奖励;根据足球基础奖励和相似度奖励得到强化学习总奖励;根据强化学习总奖励,利用近端策略优化算法更新智能体的策略网络的参数。本发明能够在谷歌足球模拟器模拟的谷歌足球环境中提高强化学习性能。