摘要
本发明提出一种基于贝叶斯检测的水印检测方法和装置,包括:获取待大模型水印检测的目标文本和其对应提示词;通过语言模型处理提示词和目标文本拼接成的令牌序列,得到语言模型对于每个令牌位置输出的概率分布;对于目标文本的共T个令牌中的第j个令牌,选取第j个令牌之前的前k个令牌输入哈希函数,得到第j个令牌的随机种子;基于随机种子,将大模型的词表划分为优先选取集合和非优先选取集合;基于预设的水印偏置,优先选取集合和概率分布,生成第j个令牌扰动后的概率分布;利用扰动后、前的概率分布计算对数似然比,将对数似然比累加到当前文本的检测分数上;检测分数若高于阈值,则判定目标文本具有大模型的水印。