大型语言模型安全性提升方法、装置和存储介质

申请号：CN202511247710

申请日期：2025-09-02

公开号：CN120874060A

公开日期：2025-10-31

类型：发明专利

摘要

本公开涉及一种大型语言模型安全性提升方法、装置和存储介质。该方法包括：对原始有害指令进行处理，得到越狱攻击线索，越狱攻击线索包括有害行为；基于越狱攻击线索和预设的场景生成模版，生成第一查询语句，第一查询语句包括伦理困境场景，在伦理困境场景中拒绝执行有害行为将导致预设的危害性后果发生；基于第一查询语句对目标模型进行越狱攻击，得到越狱攻击结果；基于越狱攻击结果，优化目标模型的安全机制。根据本公开实施例，能够系统化地挖掘并利用大型语言模型在道德推理中的潜在漏洞，实现基于交互的多轮越狱攻击，为识别模型安全漏洞、优化模型安全策略提供可靠依据，从而可以更全面地评估并提升LLM的安全防护水平。

技术关键词

语句线索危害性场景模版提升装置计算机程序产品处理器指令机制可读存储介质模块存储器漏洞主题语义