摘要
本发明涉及人工智能安全测评技术领域,公开了基于反馈的生成式人工智能指令攻击测评方法及系统,其方法包括:建立基础攻击模板库,包括多个核心攻击模式及对应的种子提示词;利用动态组合引擎结合语法解析树,从基础攻击模板库中生成提示词,并基于语义特征和情感倾向计算提示词的权重;根据权重对提示词进行排序与筛选,并基于四维评估体系对所选提示词进行评估,获取提示词的评估指标;构建包含攻击生成器、防御判别器与动态平衡机制的训练模型;基于提示词评估指标对训练模型进行反馈优化,并采用弹性权重固化算法对所述训练模型进行更新。本发明通过动态反馈调整指令,覆盖了更多攻击场景,提高了测评效率。