摘要
本申请公开了一种模型训练方法、装置、电子设备及计算机存储介质,其中,该方法包括:获取第一训练样本;第一训练样本包括业务目标和业务状态特征;通过待训练的第一大语言模型处理第一训练样本,得到多个第一样本响应;获取各第一样本响应对应的各第一奖励值;各第一奖励值用于表征基于各第一样本响应实现业务目标的有效性;根据各第一奖励值更新第一大语言模型的参数,并再次执行获取第一训练样本的步骤,直至达到第一预设训练停止条件时停止,得到训练好的第一大语言模型。采用上述模型训练方法能够有效提升模型的训练效果,从而为用户提供可靠的决策分析服务。