一种挖掘多模态大型语言模型漏洞并进行防范的方法

申请号：CN202411975909

申请日期：2024-12-30

公开号：CN119939595A

公开日期：2025-05-06

类型：发明专利

摘要

本发明实施例公开了一种挖掘多模态大型语言模型漏洞并进行防范的方法。本发明实施例中，通过获取图文信息；将所述图像信息和/或所述文本信息进行切分，生成N个图像单元和/或M个文本单元；将N个图像单元和/或M个文本单元随机打乱，生成打乱后的目标图文信息；将所述目标图文信息输入到多模态大型语言模型中，输出应答文本；将所述应答文本输入到预先设置的判别模型中，获取判别结果；响应于所述判别结果为有害，则确定所述图文信息挖掘漏洞成功；并根据所述多模态大型语言的漏洞，确定所述多模态大型语言的防范策略。通过上述方法，可以越过多模态大型语言模型的安全机制，实现对潜在安全漏洞的有效挖掘，进而提高防御能力。

技术关键词

多模态图文文本漏洞图像计算机程序指令可读存储介质处理单元元素策略分块处理器存储器电子设备机制