用于中文大模型的越狱攻击方法及装置、电子设备

申请号：CN202411695254

申请日期：2024-11-25

公开号：CN119441441A

公开日期：2025-02-14

类型：发明专利

摘要

本申请涉及生成式大模型技术领域，公开一种用于中文大模型的越狱攻击方法，包括：对待输入的攻击问题进行数据增强；将增强后的攻击问题与经过选择的攻击模板进行拼接；将拼接后的数据作为测试模型的输入，对测试模型进行攻击，获得测试模型的输出；其中，测试模型为中文大模型；根据构建的安全评估模型，判定测试模型的输出是否安全，以统计攻击成功率。该方法能够适配中文的攻击场景，提升了中文诱导的能力。还通过统计攻击成功率能够量化攻击的有效性。本申请还公开一种用于中文大模型的越狱攻击装置及电子设备。

技术关键词

电子设备本体模板生成攻击样本语义向量数据答案模块处理器有效性定义程序指令格式存储器指标场景组织