奖励模型训练方法、智能体训练方法、目标物选址方法及其装置、存储介质
申请号:CN202411864494
申请日期:2024-12-17
公开号:CN119721111A
公开日期:2025-03-28
类型:发明专利
摘要
本公开提供一种奖励模型训练方法、智能体训练方法、目标物选址方法及其装置、存储介质,涉及计算机技术领域。奖励模型训练方法包括:构建样本数据集,其中样本数据集包括用于目标物选址的多个样本状态信息,与第t个样本状态信息对应的第t个样本动作信息,和第t个样本动作信息的奖励值标注信息,第t+1个样本状态信息为执行第t个样本动作信息后得到的样本状态信息,,N为样本状态信息总数;利用奖励模型对第t个样本状态信息、第t个样本动作信息和第t+1个样本状态信息进行处理,得到第t个样本动作信息的奖励值;根据第t个样本动作信息的奖励值和第t个样本动作信息的奖励值标注信息,对奖励模型进行训练。
技术关键词
智能体训练方法
模型训练方法
样本
选址方法
状态更新
存储器
处理器
视频采集装置
模型训练装置
选址模型
指令
可读存储介质
计算机程序产品
数据
参数
关系