一种基于大语言模型和强化学习的文本去毒方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于大语言模型和强化学习的文本去毒方法
申请号:CN202510816773
申请日期:2025-06-18
公开号:CN120671681A
公开日期:2025-09-19
类型:发明专利
摘要
本发明公开了一种基于大语言模型和强化学习的文本去毒方法,其特点是该方法具体包括:1)利用构建的平行数据集对开源7B语言模型进行低秩适应的有监督微调,使其具有初始去毒能力;2)设计奖励函数,对生成文本的毒性程度与语义保留能力进行打分;3)从原始数据集中提取仅含有毒文本的未标注数据,基于奖励模型提供的奖励信号,采用群体相对策略优化方法继续训练模型,使其在无监督数据上也能有效学习去毒策略等步骤。本发明与相应技术相比具有保证语义保留的同时增强了模型的泛化能力、去毒效果高、鲁棒性好和数据利用效率高的优点,应用前景良好。
技术关键词
去毒方法 大语言模型 微调机制 平行语料数据 策略优化方法 预训练语言模型 强化学习策略 适配器 样本 文本分类器 BERT模型 条带 指令 小规模 语义层面