一种提示语盗取攻击的检测方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种提示语盗取攻击的检测方法
申请号:CN202510413557
申请日期:2025-04-02
公开号:CN120449882A
公开日期:2025-08-08
类型:发明专利
摘要
本说明书实施例公开了一种提示语盗取攻击的检测方法,将包含用户提示语和系统提示语的最终提示语输入大语言模型,检测大语言模型在输出结果的过程中,是否存在从最终提示语中读取至少部分系统提示语,并将读取的至少部分系统提示语作为至少部分输出的结果的操作,若是,则可确定用户提示语存在提示语盗取攻击的行为。该方法不需要依赖基于先验知识的拦截规则对存在提示语盗取攻击行为的用户提示语进行拦截,直接以大语言模型实际执行的操作为依据判断是否受到攻击,因此各种试图盗取系统提示语的用户提示语均难以绕过上述检测方法,可有效防御提示语盗取攻击。
技术关键词
大语言模型 服务端 拦截规则 处理器 程序 样本 输入模块 可读存储介质 指令 存储器 客户端 电子设备 日志 计算机 参数