基于大模型内生机制操控的模型安全漏洞发现方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于大模型内生机制操控的模型安全漏洞发现方法及装置
申请号:CN202511034542
申请日期:2025-07-25
公开号:CN120910866A
公开日期:2025-11-07
类型:发明专利
摘要
本发明提出一种基于大模型内生机制操控的模型安全漏洞发现方法和装置,包括:构建由正常提示词和漏洞发现提示词构成的提示词对;选择该大模型前向传播中最早对结果产生影响的神经网络层作为目标层;将该正常提示词和该漏洞发现提示词分别输入该大模型,根据该目标层的隐状态,分别计算接受立场隐状态中心和拒绝立场隐状态中心;使用该接受立场隐状态中心和该拒绝立场隐状态中心,计算拒绝立场指向接受立场的方向向量;将当前对抗性后缀与该漏洞发现请求结合,将结合结果输入该大语言模型,判断该大语言模型输出内容是否违法,若是,则保存当前该结合结果和该输出内容作为漏洞发现结果。
技术关键词
安全漏洞发现方法 对抗性 信息显示设备 机制 人工智能模型 计算机程序产品 序列 电子设备 字符 可读存储介质 格式 处理器 参数