摘要
本发明公开了一种基于多智能体强化学习的大模型安全漏洞检测方法,涉及人工智能安全技术领域。该检测方法包括:构建初始提示词集合、提示词生成智能体和提示词判别智能体;选择初始提示词输入提示词生成智能体,生成的新提示词输入目标大模型,得到第一模型输出;将新提示词和第一模型输出组成键值对输入提示词判别智能体,获取新提示词的综合得分,并将新提示词添加至初始提示词集合;重复更新初始提示词集合,获取优化提示词集合输入目标大模型,获取第二模型输出;对第二模型输出进行敏感信息识别,判断目标大模型的安全漏洞。该检测方法可有效发现大模型潜在的安全风险漏洞,有助于提升目标大模型的安全性。