基于强化学习的多模态大模型黑盒防御方法及装置

申请号：CN202411503194

申请日期：2024-10-25

公开号：CN119449397B

公开日期：2025-09-30

类型：发明专利

摘要

本发明提供了一种基于强化学习的多模态大模型黑盒防御方法及装置，具有这样的特征，包括以下步骤：步骤S1，通过图像净化器对越狱图像进行净化生成净化图像，并通过文本净化器对越狱文本进行净化生成净化文本；步骤S2，将净化文本输入良性引导生成器生成引导文本；步骤S3，将净化文本和引导文本进行拼接，得到拼接文本；步骤S4，将拼接文本和净化图像一同输入多模态大模型，生成良性回复。总之，本方法能够提高多模态大模型对越狱攻击的防御能力，并对输入生成对应的良性回复。

技术关键词

文本多模态净化器大语言模型噪声图像净化模块表达式拼接模块数据控制权方程模版参数