基于强化学习的大语言模型安全保护防御方法和装置

申请号：CN202511218345

申请日期：2025-08-28

公开号：CN120974512A

公开日期：2025-11-18

类型：发明专利

摘要

本发明提供的基于强化学习的大语言模型安全保护防御方法和装置，属于人工智能安全防护领域。所述在大语言模型安全保护防御方法通过大语言模型的输入端阶段，通过强化学习训练一个重写模型，将原本的输入提示输入到重写模型中，得到直接过滤后的提示，将直接过滤后的提示输入到目标模型中得到安全响应，从而提高目标模型的鲁棒性；在模型的输出端阶段，通过强化学习训练一个反向翻译模型，将目标模型初次生成的响应输入到反向翻译模型中，得到间接过滤后的提示，将间接过滤后的提示再次输入到目标模型中得到安全的响应，从而进一步提高目标模型的鲁棒性。本发明涵盖了大语言模型输入端和输出端的防御，使得大语言模型的防御更加全面。

技术关键词

翻译模型联合损失函数大语言模型数据阶段文本摘要模型策略存储计算机程序鲁棒性参数表达式序列数学存储器模板处理器样本语义输入端算法