基于多层次干扰策略的多模态大语言模型越狱攻击方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多层次干扰策略的多模态大语言模型越狱攻击方法
申请号:CN202510668256
申请日期:2025-05-23
公开号:CN120493247A
公开日期:2025-08-15
类型:发明专利
摘要
本申请提供一种基于多层次干扰策略的多模态大语言模型越狱攻击方法,包括:对原始查询进行分解处理,确定多个子查询;对每一子查询进行图像生成处理,确定每一子查询对应的视觉子图像;根据原始查询以及已选择图像与预设的图像数据集中的每一图像的余弦相似度之和,确定对比子图像;根据每一子查询对应的视觉子图像和每一对比子图像,构建复合图像;根据复合图像,确定复合图像对应的无害指令;将复合图像和复合图像对应的无害指令输入多模态大语言模型,执行越狱攻击。通过本申请,采用多层次干扰策略分散多模态大模型的注意力,为模型的安全性分析提供技术手段,推动防御机制的优化与改进。
技术关键词
大语言模型 图像生成模型 编码向量 多模态 视觉 多层次 非临时性计算机可读存储介质 指令 数据 节点 策略 语义结构 模块 存储器 处理器 注意力 电子设备 文本