大型语言模型安全性提升方法、装置和存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大型语言模型安全性提升方法、装置和存储介质
申请号:CN202511247710
申请日期:2025-09-02
公开号:CN120874060A
公开日期:2025-10-31
类型:发明专利
摘要
本公开涉及一种大型语言模型安全性提升方法、装置和存储介质。该方法包括:对原始有害指令进行处理,得到越狱攻击线索,越狱攻击线索包括有害行为;基于越狱攻击线索和预设的场景生成模版,生成第一查询语句,第一查询语句包括伦理困境场景,在伦理困境场景中拒绝执行有害行为将导致预设的危害性后果发生;基于第一查询语句对目标模型进行越狱攻击,得到越狱攻击结果;基于越狱攻击结果,优化目标模型的安全机制。根据本公开实施例,能够系统化地挖掘并利用大型语言模型在道德推理中的潜在漏洞,实现基于交互的多轮越狱攻击,为识别模型安全漏洞、优化模型安全策略提供可靠依据,从而可以更全面地评估并提升LLM的安全防护水平。
技术关键词
语句 线索 危害性 场景 模版 提升装置 计算机程序产品 处理器 指令 机制 可读存储介质 模块 存储器 漏洞 主题 语义