摘要
本发明提供一种大语言模型安全防护机制的检测方法及系统,方法在检索增强生成框架上执行,黑盒访问权限下使用查询问题的文本作为前缀文本;白盒访问权限下,检索器中编码器编码获得的文本向量构建为嵌入矩阵,计算各文本向量之间的相似度矩阵对各文本向量进行聚类操作,各类别问题集合的聚类中心的文本作为前缀初始文本并进行类别内部优化后获得前缀文本;通过预设开源越狱问题模板构建越狱问题并在问题前后加提示词;前缀文本和后缀文本组合为恶意文本并加入知识数据库;将目标查询问题输入检索器并从知识数据库中检索出包含恶意文本的问题答案,与查询问题共同输入大语言模型,根据输出结果判断大语言模型安全防护机制是否生效。