基于大模型内生机制操控的模型安全漏洞发现方法及装置

申请号：CN202511034542

申请日期：2025-07-25

公开号：CN120910866A

公开日期：2025-11-07

类型：发明专利

摘要

本发明提出一种基于大模型内生机制操控的模型安全漏洞发现方法和装置，包括：构建由正常提示词和漏洞发现提示词构成的提示词对；选择该大模型前向传播中最早对结果产生影响的神经网络层作为目标层；将该正常提示词和该漏洞发现提示词分别输入该大模型，根据该目标层的隐状态，分别计算接受立场隐状态中心和拒绝立场隐状态中心；使用该接受立场隐状态中心和该拒绝立场隐状态中心，计算拒绝立场指向接受立场的方向向量；将当前对抗性后缀与该漏洞发现请求结合，将结合结果输入该大语言模型，判断该大语言模型输出内容是否违法，若是，则保存当前该结合结果和该输出内容作为漏洞发现结果。

技术关键词

安全漏洞发现方法对抗性信息显示设备机制人工智能模型计算机程序产品序列电子设备字符可读存储介质格式处理器参数