一种提示语盗取攻击的检测方法

申请号：CN202510413557

申请日期：2025-04-02

公开号：CN120449882A

公开日期：2025-08-08

类型：发明专利

摘要

本说明书实施例公开了一种提示语盗取攻击的检测方法，将包含用户提示语和系统提示语的最终提示语输入大语言模型，检测大语言模型在输出结果的过程中，是否存在从最终提示语中读取至少部分系统提示语，并将读取的至少部分系统提示语作为至少部分输出的结果的操作，若是，则可确定用户提示语存在提示语盗取攻击的行为。该方法不需要依赖基于先验知识的拦截规则对存在提示语盗取攻击行为的用户提示语进行拦截，直接以大语言模型实际执行的操作为依据判断是否受到攻击，因此各种试图盗取系统提示语的用户提示语均难以绕过上述检测方法，可有效防御提示语盗取攻击。

技术关键词

大语言模型服务端拦截规则处理器程序样本输入模块可读存储介质指令存储器客户端电子设备日志计算机参数