基于遗传算法与注意力分布的大语言模型安全漏洞测试方法、设备、介质

申请号：CN202411968410

申请日期：2024-12-30

公开号：CN120086852A

公开日期：2025-06-03

类型：发明专利

摘要

本发明公开了一种基于遗传算法与注意力分布的大语言模型安全漏洞测试方法、设备、介质，包括：选取AdvBench数据集作为漏洞测试问题；对AdvBench数据集中的一测试问题样本进行恶意词汇提取与词元分解；随机选取若干个词元作为初始种群，计算并放大选取的词元对应的注意力得分；对初始种群按照变异概率进行编码翻转，从而对种群进行优化；将优化后的种群对应的测试问题输入至大语言模型，对模型响应进行判定；当模型响应为拒绝时，则大语言模型不存在安全漏洞；当模型响应为合规时，则大语言模型存在安全漏洞。

技术关键词

遗传算法测试方法注意力样本表达式人工智能模型种子编码数据处理器语句计算机程序产品矩阵漏洞存储器自然语言可读存储介质索引交叉点