策略模型训练方法、装置、介质及设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
策略模型训练方法、装置、介质及设备
申请号:CN202511502437
申请日期:2025-10-21
公开号:CN120996205A
公开日期:2025-11-21
类型:发明专利
摘要
本申请实施例公开了一种策略模型训练方法、装置、介质及设备,获取输入文本对应的提示词并将提示词输入至初始策略模型,得到第一预设数量的初始回答;将提示词、每个初始回答输入至预设评估模型,得到每个初始回答的评估结果;根据评估结果,从初始回答中筛选出第二预设数量的待修改回答;将每个待修改回答输入至初始策略模型,基于修改要求输出第二预设数量的优化回答;以第一预设数量的初始回答以及第二预设数量的优化回答构建所述提示词的回答组群,基于所述回答组群中每个目标回答的组内奖励值对初始策略模型进行训练,得到训练后的策略模型。可缩短模型自我探索时的探索路径,减少计算机资源占用,提高处理能力,提升策略模型的推理准确性。
技术关键词
模型训练方法 策略 模板 模型训练装置 强化学习算法 可读存储介质 处理器 文本 教师 计算机设备 存储器 序列 指令 资源 参数