基于反馈的生成式人工智能指令攻击测评方法及系统

申请号：CN202510802608

申请日期：2025-06-16

公开号：CN120951321A

公开日期：2025-11-14

类型：发明专利

摘要

本发明涉及人工智能安全测评技术领域，公开了基于反馈的生成式人工智能指令攻击测评方法及系统，其方法包括：建立基础攻击模板库，包括多个核心攻击模式及对应的种子提示词；利用动态组合引擎结合语法解析树，从基础攻击模板库中生成提示词，并基于语义特征和情感倾向计算提示词的权重；根据权重对提示词进行排序与筛选，并基于四维评估体系对所选提示词进行评估，获取提示词的评估指标；构建包含攻击生成器、防御判别器与动态平衡机制的训练模型；基于提示词评估指标对训练模型进行反馈优化，并采用弹性权重固化算法对所述训练模型进行更新。本发明通过动态反馈调整指令，覆盖了更多攻击场景，提高了测评效率。

技术关键词

测评方法生成提示词 LSTM模型指令语义特征模板蒙特卡洛树机制有效性指标生成对抗网络测评技术测评系统基础增量更新模型更新搜索算法动态种子