一种基于人眼视觉相似度引导的文生图模型越狱攻击系统
申请号:CN202510662606
申请日期:2025-05-22
公开号:CN120493269A
公开日期:2025-08-15
类型:发明专利
摘要
本发明公开了一种基于人眼视觉相似度引导的文生图模型越狱攻击系统,属于人工智能安全领域,其技术要点是:包括以下模块:有害短语检测模块,有害短语检测模块用于读取输入提示句,提取其中的有害短语;有害短语替换模块,内容生成模块用于根据人眼视觉感知挖掘与有害短语具有视觉相似性但无害的短语,并用于替换有害短语,形成攻击样本提示句;内容生成模块,内容生成模块用于将攻击样本提示词输入至文生图模型以生成图像;效果评估模块,效果评估模块用于衡量是否成功绕过安全机制并生成有害图像内容,具有适用多种开源或闭源文生图模型,均取得较高的攻击成功率,整个攻击流程由大模型驱动自动化实现,并适用于多种大模型的优点。
技术关键词
人眼视觉感知
语义
模块
图像
生成攻击样本
关键词
文本
处理单元
机制
词语
图文
颜色
数据