基于多层次干扰策略的多模态大语言模型越狱攻击方法

申请号：CN202510668256

申请日期：2025-05-23

公开号：CN120493247A

公开日期：2025-08-15

类型：发明专利

摘要

本申请提供一种基于多层次干扰策略的多模态大语言模型越狱攻击方法，包括：对原始查询进行分解处理，确定多个子查询；对每一子查询进行图像生成处理，确定每一子查询对应的视觉子图像；根据原始查询以及已选择图像与预设的图像数据集中的每一图像的余弦相似度之和，确定对比子图像；根据每一子查询对应的视觉子图像和每一对比子图像，构建复合图像；根据复合图像，确定复合图像对应的无害指令；将复合图像和复合图像对应的无害指令输入多模态大语言模型，执行越狱攻击。通过本申请，采用多层次干扰策略分散多模态大模型的注意力，为模型的安全性分析提供技术手段，推动防御机制的优化与改进。

技术关键词

大语言模型图像生成模型编码向量多模态视觉多层次非临时性计算机可读存储介质指令数据节点策略语义结构模块存储器处理器注意力电子设备文本