一种语言模型安全性度量的方法和装置

申请号：CN202511138797

申请日期：2025-08-14

公开号：CN121030740A

公开日期：2025-11-28

类型：发明专利

摘要

本发明提供语言模型安全性度量的方法，相比于现有的度量方法而言，该方法基于给定一段有害文本和一个预训练的语言模型，构建连续的概率分布，通过对连续的概率分布采样生成随机对抗提示，避免离散搜索的局限性，确保总能找到诱导路径即最坏情况得到保障，解决了以往通过优化离散的对抗后缀造成搜索失败的问题；通过基于预训练词嵌入的核密度估计构造先验分布，约束随机对抗提示接近合法词嵌入分布，防止对抗样本偏离自然语言特征，通过联合优化敏感度和安全性目标，梯度加权平衡两者，实现在最坏情况下的安全性度量。本发明还提供了基于语言模型安全性度量的装置，实现语言模型安全性度量的方法。

技术关键词

对抗性度量文本模型预训练指标协方差矩阵梯度下降算法高斯核函数存储计算机程序参数序列变量生成随机自然语言数学定义存储器处理器样本