奖励模型训练方法、智能体训练方法、目标物选址方法及其装置、存储介质

申请号：CN202411864494

申请日期：2024-12-17

公开号：CN119721111A

公开日期：2025-03-28

类型：发明专利

摘要

本公开提供一种奖励模型训练方法、智能体训练方法、目标物选址方法及其装置、存储介质，涉及计算机技术领域。奖励模型训练方法包括：构建样本数据集，其中样本数据集包括用于目标物选址的多个样本状态信息，与第t个样本状态信息对应的第t个样本动作信息，和第t个样本动作信息的奖励值标注信息，第t+1个样本状态信息为执行第t个样本动作信息后得到的样本状态信息，，N为样本状态信息总数；利用奖励模型对第t个样本状态信息、第t个样本动作信息和第t+1个样本状态信息进行处理，得到第t个样本动作信息的奖励值；根据第t个样本动作信息的奖励值和第t个样本动作信息的奖励值标注信息，对奖励模型进行训练。

技术关键词

智能体训练方法模型训练方法样本选址方法状态更新存储器处理器视频采集装置模型训练装置选址模型指令可读存储介质计算机程序产品数据参数关系