摘要
本申请实施例公开了一种策略模型训练方法、装置、介质及设备,获取输入文本对应的提示词并将提示词输入至初始策略模型,得到第一预设数量的初始回答;将提示词、每个初始回答输入至预设评估模型,得到每个初始回答的评估结果;根据评估结果,从初始回答中筛选出第二预设数量的待修改回答;将每个待修改回答输入至初始策略模型,基于修改要求输出第二预设数量的优化回答;以第一预设数量的初始回答以及第二预设数量的优化回答构建所述提示词的回答组群,基于所述回答组群中每个目标回答的组内奖励值对初始策略模型进行训练,得到训练后的策略模型。可缩短模型自我探索时的探索路径,减少计算机资源占用,提高处理能力,提升策略模型的推理准确性。