大语言模型越狱攻击的风险防御方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大语言模型越狱攻击的风险防御方法及装置
申请号:CN202411849245
申请日期:2024-12-16
公开号:CN119808883B
公开日期:2025-06-03
类型:发明专利
摘要
本申请提供了一种大语言模型越狱攻击的风险防御方法及装置,从大语言模型的输入侧、模型侧、输出侧进行了风险防御。风险防御方法包括:步骤S1,接收输入的文本信息;步骤S2,在大语言模型的输入侧,建立动态恶意关键词库;步骤S3,在大语言模型的模型侧,基于步骤S2传送过来的训练数据,训练学习模型运行反馈信息和模型内部状态信息,基于动态调整策略对大语言模型进行调整;步骤S4,在大语言模型的输出侧,基于步骤S3传送过来的预输出文本信息和步骤S2的动态恶意关键词库,构建输出审核库。本申请通过这种协同工作,每个层面的防御措施都能在整个安全框架中发挥最大效用,从而有效地预防和应对各种潜在的攻击,共同提升模型的整体防御能力。
技术关键词
风险防御方法 大语言模型 关键词 生成对抗网络模型 交互历史 意图识别 动态 命名实体识别 样本 策略 文本情感倾向 内部网络结构 生成对抗模型 数据 频率 神经网络结构
系统为您推荐了相关专利信息
语义关键词 数据生成方法 格式模板 对象 查询意图
关系生成方法 大语言模型 文本 软件漏洞分析 语义
语句 关键词 知识图谱数据库 文本特征向量 数据检索方法
大语言模型 检索方法 关键词 摘要 样本
文本 大语言模型 图像嵌入 生成图像特征 输出特征