策略模型训练方法、装置、介质及设备

申请号：CN202511502437

申请日期：2025-10-21

公开号：CN120996205A

公开日期：2025-11-21

类型：发明专利

摘要

本申请实施例公开了一种策略模型训练方法、装置、介质及设备，获取输入文本对应的提示词并将提示词输入至初始策略模型，得到第一预设数量的初始回答；将提示词、每个初始回答输入至预设评估模型，得到每个初始回答的评估结果；根据评估结果，从初始回答中筛选出第二预设数量的待修改回答；将每个待修改回答输入至初始策略模型，基于修改要求输出第二预设数量的优化回答；以第一预设数量的初始回答以及第二预设数量的优化回答构建所述提示词的回答组群，基于所述回答组群中每个目标回答的组内奖励值对初始策略模型进行训练，得到训练后的策略模型。可缩短模型自我探索时的探索路径，减少计算机资源占用，提高处理能力，提升策略模型的推理准确性。

技术关键词

模型训练方法策略模板模型训练装置强化学习算法可读存储介质处理器文本教师计算机设备存储器序列指令资源参数