强化学习监督的个性化大语言模型Prompt生成方法

申请号：CN202411909576

申请日期：2024-12-24

公开号：CN119830013A

公开日期：2025-04-15

类型：发明专利

摘要

本发明提供了强化学习监督的个性化大语言模型Prompt生成方法，该方法包括：将样本数据分别输入到初始Prompt生成模型和预先训练完成的中间Prompt生成模型中得到第一生成Prompt和第二生成Prompt；将第一生成Prompt和对应的第一生成回复输入到奖励模型中得到第一生成Prompt对应的奖励值；基于样本数据、Prompt标签、第一生成Prompt、第二生成Prompt和第一生成Prompt对应的奖励值更新初始Prompt生成模型的参数，以生成大语言模型Prompt。本申请基于第一任务描述样本和对应的第一用户信息样本训练Prompt生成模型，为用户提供个性化回复。

技术关键词

大语言模型样本生成方法标签生成用户信息机器可读指令数据输入模块处理器可读存储介质参数电子设备生成装置计算机数值