摘要
本发明提供的基于强化学习的大语言模型安全保护防御方法和装置,属于人工智能安全防护领域。所述在大语言模型安全保护防御方法通过大语言模型的输入端阶段,通过强化学习训练一个重写模型,将原本的输入提示输入到重写模型中,得到直接过滤后的提示,将直接过滤后的提示输入到目标模型中得到安全响应,从而提高目标模型的鲁棒性;在模型的输出端阶段,通过强化学习训练一个反向翻译模型,将目标模型初次生成的响应输入到反向翻译模型中,得到间接过滤后的提示,将间接过滤后的提示再次输入到目标模型中得到安全的响应,从而进一步提高目标模型的鲁棒性。本发明涵盖了大语言模型输入端和输出端的防御,使得大语言模型的防御更加全面。