基于遗传算法与注意力分布的大语言模型安全漏洞测试方法、设备、介质
申请号:CN202411968410
申请日期:2024-12-30
公开号:CN120086852A
公开日期:2025-06-03
类型:发明专利
摘要
本发明公开了一种基于遗传算法与注意力分布的大语言模型安全漏洞测试方法、设备、介质,包括:选取AdvBench数据集作为漏洞测试问题;对AdvBench数据集中的一测试问题样本进行恶意词汇提取与词元分解;随机选取若干个词元作为初始种群,计算并放大选取的词元对应的注意力得分;对初始种群按照变异概率进行编码翻转,从而对种群进行优化;将优化后的种群对应的测试问题输入至大语言模型,对模型响应进行判定;当模型响应为拒绝时,则大语言模型不存在安全漏洞;当模型响应为合规时,则大语言模型存在安全漏洞。
技术关键词
遗传算法
测试方法
注意力
样本
表达式
人工智能模型
种子
编码
数据
处理器
语句
计算机程序产品
矩阵
漏洞
存储器
自然语言
可读存储介质
索引
交叉点