摘要
本发明公开了一种基于大语言模型和强化学习的文本去毒方法,其特点是该方法具体包括:1)利用构建的平行数据集对开源7B语言模型进行低秩适应的有监督微调,使其具有初始去毒能力;2)设计奖励函数,对生成文本的毒性程度与语义保留能力进行打分;3)从原始数据集中提取仅含有毒文本的未标注数据,基于奖励模型提供的奖励信号,采用群体相对策略优化方法继续训练模型,使其在无监督数据上也能有效学习去毒策略等步骤。本发明与相应技术相比具有保证语义保留的同时增强了模型的泛化能力、去毒效果高、鲁棒性好和数据利用效率高的优点,应用前景良好。