一种针对大语言模型的安全对齐测试方法及系统
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种针对大语言模型的安全对齐测试方法及系统
申请号:
CN202510819950
申请日期:
2025-06-19
公开号:
CN120670557A
公开日期:
2025-09-19
类型:
发明专利
摘要
本发明公开了一种针对大语言模型的安全对齐测试方法及系统,属于大模型安全技术领域,解决现有越狱提示词生成方法主要依赖算法优化、利用侧通道通信与长尾效应、基于分布式手动制作越狱提示词、多轮自动越狱等,存在生成效率低、测试效果有限的问题。本发明包括将三段式的原始恶意问题输入训练好的三段式改写模型生成固定结构的三段语义层级明确的提示词;将三段式的原始恶意问题及大语言模型针对三段提示词的回复输入越狱判定模型中对大语言模型进行安全对齐测试。本发明用于对大语言模型的安全对齐测试。
技术关键词
对齐测试方法
大语言模型
阶段
意图
层级
话题
语义
长尾效应
数据
模块
生成方法
主题
样本
场景
算法
通道