摘要
本公开涉及一种大型语言模型安全性提升方法、装置和存储介质。该方法包括:对原始有害指令进行处理,得到越狱攻击线索,越狱攻击线索包括有害行为;基于越狱攻击线索和预设的场景生成模版,生成第一查询语句,第一查询语句包括伦理困境场景,在伦理困境场景中拒绝执行有害行为将导致预设的危害性后果发生;基于第一查询语句对目标模型进行越狱攻击,得到越狱攻击结果;基于越狱攻击结果,优化目标模型的安全机制。根据本公开实施例,能够系统化地挖掘并利用大型语言模型在道德推理中的潜在漏洞,实现基于交互的多轮越狱攻击,为识别模型安全漏洞、优化模型安全策略提供可靠依据,从而可以更全面地评估并提升LLM的安全防护水平。