基于强化学习的大语言模型安全保护防御方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于强化学习的大语言模型安全保护防御方法和装置
申请号:CN202511218345
申请日期:2025-08-28
公开号:CN120974512A
公开日期:2025-11-18
类型:发明专利
摘要
本发明提供的基于强化学习的大语言模型安全保护防御方法和装置,属于人工智能安全防护领域。所述在大语言模型安全保护防御方法通过大语言模型的输入端阶段,通过强化学习训练一个重写模型,将原本的输入提示输入到重写模型中,得到直接过滤后的提示,将直接过滤后的提示输入到目标模型中得到安全响应,从而提高目标模型的鲁棒性;在模型的输出端阶段,通过强化学习训练一个反向翻译模型,将目标模型初次生成的响应输入到反向翻译模型中,得到间接过滤后的提示,将间接过滤后的提示再次输入到目标模型中得到安全的响应,从而进一步提高目标模型的鲁棒性。本发明涵盖了大语言模型输入端和输出端的防御,使得大语言模型的防御更加全面。
技术关键词
翻译模型 联合损失函数 大语言模型 数据 阶段 文本摘要模型 策略 存储计算机程序 鲁棒性 参数 表达式 序列 数学 存储器 模板 处理器 样本 语义 输入端 算法