一种基于谷歌足球模拟器的强化学习方法

申请号：CN202410712405

申请日期：2024-06-04

公开号：CN118278295B

公开日期：2024-08-09

类型：发明专利

摘要

本发明提出了一种基于谷歌足球模拟器的强化学习方法，包括：基于谷歌足球模拟器构建谷歌足球环境，获取当前时刻的观测信息；根据观测信息利用训练好的大语言模型生成动作提示信息；根据动作提示信息，利用智能体从策略网络中选择动作并反馈到所述谷歌足球环境；根据动作执行后谷歌足球环境下的足球比赛视频和动作提示信息，利用训练好的视频文本检索模型计算视频与文本的相似度，进而得到相似度奖励；根据观测信息计算足球基础奖励；根据足球基础奖励和相似度奖励得到强化学习总奖励；根据强化学习总奖励，利用近端策略优化算法更新智能体的策略网络的参数。本发明能够在谷歌足球模拟器模拟的谷歌足球环境中提高强化学习性能。

技术关键词

足球比赛视频强化学习方法模拟器训练样本集大语言模型文本编码器图像编码器策略生成动作注意力机制视频编码器微调方法预训练模型编码特征视频帧前馈神经网络

系统为您推荐了相关专利信息

一种数据处理方法、装置及设备

大语言模型数据处理方法数据处理设备逻辑深度学习算法

基于大数据的文件解析存储划分方式及分布式存储系统

分布式存储系统大数据元数据管理模块策略动态调整机制

一种在线辅助语音对话场景的多模态情感提示方法及系统

提示方法融合特征交叉注意力机制标签场景

一种检测被遮挡对象的方法、装置及设备

对象检测模型特征提取模块机器学习技术训练样本集处理器

跨模态电力视频定位方法、系统、电子设备和存储介质

视频定位方法电力视觉视频定位系统关键帧