一种大语言模型安全优化方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种大语言模型安全优化方法、装置、设备及介质
申请号:CN202411029274
申请日期:2024-07-30
公开号:CN118965366A
公开日期:2024-11-15
类型:发明专利
摘要
本申请涉及人工智能安全技术领域,公开了一种大语言模型安全优化方法、装置、设备及介质,包括:获取攻击任务数据集;其中,所述攻击任务数据集包括至少一种攻击任务类型和所述攻击任务类型下的多个恶意指令数据;根据所述恶意指令数据生成所述攻击任务类型对应的通用词级对抗后缀,并根据所述通用词级对抗后缀生成所述恶意指令数据对应的目标词级对抗后缀;基于所述目标词级对抗后缀对所述大语言模型进行第一次微调,得到第一微调模型;基于获取到的目标语义级对抗提示对所述第一微调模型进行第二次微调,得到第二微调模型。本申请能够提升大语言模型对各种已知和未知形式的越狱攻击的抵御能力。
技术关键词
大语言模型 指令 语义 贪婪算法 可读存储介质 数据获取模块 优化装置 存储器 处理器 计算机设备 聚类 阶梯 序列 参数