用于中文大模型的越狱攻击方法及装置、电子设备
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
用于中文大模型的越狱攻击方法及装置、电子设备
申请号:
CN202411695254
申请日期:
2024-11-25
公开号:
CN119441441A
公开日期:
2025-02-14
类型:
发明专利
摘要
本申请涉及生成式大模型技术领域,公开一种用于中文大模型的越狱攻击方法,包括:对待输入的攻击问题进行数据增强;将增强后的攻击问题与经过选择的攻击模板进行拼接;将拼接后的数据作为测试模型的输入,对测试模型进行攻击,获得测试模型的输出;其中,测试模型为中文大模型;根据构建的安全评估模型,判定测试模型的输出是否安全,以统计攻击成功率。该方法能够适配中文的攻击场景,提升了中文诱导的能力。还通过统计攻击成功率能够量化攻击的有效性。本申请还公开一种用于中文大模型的越狱攻击装置及电子设备。
技术关键词
电子设备本体
模板
生成攻击样本
语义向量
数据
答案
模块
处理器
有效性
定义
程序
指令
格式
存储器
指标
场景
组织