摘要
本发明属于人工智能领域,公开了一种智能体助手的越狱攻击防御方法及相关装置,包括获取用户指令并基于预训练的越狱预测模型对用户指令进行越狱评估,得到用户指令的第一越狱评估结果;当第一越狱评估结果为存在越狱行为时,生成终止智能体助手操作的控制指令并发送至智能体助手;否则,获取智能体助手当前的动作序列文本,并采用正则表达式匹配方法、预训练的深度学习模型和基于系统提示词的大语言模型识别动作序列文本是否存在越狱行为,得到第二越狱评估结果;当第二越狱评估结果为存在越狱行为时,生成终止智能体助手当前操作的控制指令并发送至智能体助手,能够全面且准确的进行智能体助手的越狱攻击防御,保证智能体助手的安全稳定运行。