摘要
本申请提供一种基于多层次干扰策略的多模态大语言模型越狱攻击方法,包括:对原始查询进行分解处理,确定多个子查询;对每一子查询进行图像生成处理,确定每一子查询对应的视觉子图像;根据原始查询以及已选择图像与预设的图像数据集中的每一图像的余弦相似度之和,确定对比子图像;根据每一子查询对应的视觉子图像和每一对比子图像,构建复合图像;根据复合图像,确定复合图像对应的无害指令;将复合图像和复合图像对应的无害指令输入多模态大语言模型,执行越狱攻击。通过本申请,采用多层次干扰策略分散多模态大模型的注意力,为模型的安全性分析提供技术手段,推动防御机制的优化与改进。