基于正向语境嵌入越狱攻击提示词的大模型安全检测方法

申请号：CN202511217851

申请日期：2025-08-28

公开号：CN120744915B

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了基于正向语境嵌入越狱攻击提示词的大模型安全检测方法，包括：获取原始越狱攻击提示词；对原始越狱攻击提示词进行分类，并基于类别对原始越狱攻击提示词进行改写，得到改写提示词；选取正向回答内容和恶意回答内容，将改写提示词进行结构引导的语义混合调控，经强化学习修正，得到正向语境嵌入的越狱攻击提示词；将正向语境嵌入的越狱攻击提示词输入待测大模型，针对待测大模型进行安全检测。该方法将原始具有攻击性或违规目的的提示词，通过语义重构与语境包装的方式，嵌入到一段具有正面导向意义的文本上下文中，从而显著降低被模型后置安全护栏（如敏感词检测器、内容过滤器）识别拦截的概率，提升大模型安全检测的准确性。

技术关键词

混合式结构语义生成结构模板场景处理器计算机程序产品指令监测模块护栏标志可读存储介质检测器电子设备过滤器重构文本