强化学习监督的个性化大语言模型Prompt生成方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
强化学习监督的个性化大语言模型Prompt生成方法
申请号:CN202411909576
申请日期:2024-12-24
公开号:CN119830013A
公开日期:2025-04-15
类型:发明专利
摘要
本发明提供了强化学习监督的个性化大语言模型Prompt生成方法,该方法包括:将样本数据分别输入到初始Prompt生成模型和预先训练完成的中间Prompt生成模型中得到第一生成Prompt和第二生成Prompt;将第一生成Prompt和对应的第一生成回复输入到奖励模型中得到第一生成Prompt对应的奖励值;基于样本数据、Prompt标签、第一生成Prompt、第二生成Prompt和第一生成Prompt对应的奖励值更新初始Prompt生成模型的参数,以生成大语言模型Prompt。本申请基于第一任务描述样本和对应的第一用户信息样本训练Prompt生成模型,为用户提供个性化回复。
技术关键词
大语言模型 样本 生成方法 标签 生成用户信息 机器可读指令 数据 输入模块 处理器 可读存储介质 参数 电子设备 生成装置 计算机 数值