智能体助手的越狱攻击防御方法及相关装置

申请号：CN202510491841

申请日期：2025-04-18

公开号：CN120408599A

公开日期：2025-08-01

类型：发明专利

摘要

本发明属于人工智能领域，公开了一种智能体助手的越狱攻击防御方法及相关装置，包括获取用户指令并基于预训练的越狱预测模型对用户指令进行越狱评估，得到用户指令的第一越狱评估结果；当第一越狱评估结果为存在越狱行为时，生成终止智能体助手操作的控制指令并发送至智能体助手；否则，获取智能体助手当前的动作序列文本，并采用正则表达式匹配方法、预训练的深度学习模型和基于系统提示词的大语言模型识别动作序列文本是否存在越狱行为，得到第二越狱评估结果；当第二越狱评估结果为存在越狱行为时，生成终止智能体助手当前操作的控制指令并发送至智能体助手，能够全面且准确的进行智能体助手的越狱攻击防御，保证智能体助手的安全稳定运行。

技术关键词

攻击防御方法深度学习模型文本指令序列大语言模型攻击防御系统三元组可读存储介质风险处理器构建系统计算机设备语义格式化多模态模块存储器参数