用于中文大模型的越狱攻击方法及装置、电子设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
用于中文大模型的越狱攻击方法及装置、电子设备
申请号:CN202411695254
申请日期:2024-11-25
公开号:CN119441441A
公开日期:2025-02-14
类型:发明专利
摘要
本申请涉及生成式大模型技术领域,公开一种用于中文大模型的越狱攻击方法,包括:对待输入的攻击问题进行数据增强;将增强后的攻击问题与经过选择的攻击模板进行拼接;将拼接后的数据作为测试模型的输入,对测试模型进行攻击,获得测试模型的输出;其中,测试模型为中文大模型;根据构建的安全评估模型,判定测试模型的输出是否安全,以统计攻击成功率。该方法能够适配中文的攻击场景,提升了中文诱导的能力。还通过统计攻击成功率能够量化攻击的有效性。本申请还公开一种用于中文大模型的越狱攻击装置及电子设备。
技术关键词
电子设备本体 模板 生成攻击样本 语义向量 数据 答案 模块 处理器 有效性 定义 程序 指令 格式 存储器 指标 场景 组织