基于大语言模型的安全测评方法以及相关装置

申请号：CN202411933187

申请日期：2024-12-26

公开号：CN119357021B

公开日期：2025-04-29

类型：发明专利

摘要

本申请涉及数据处理领域，尤其是一种基于大语言模型的安全测评方法以及相关装置。该方法包括：识别大语言模型所匹配的安全评估维度；基于安全评估维度生成大语言模型的自主测试用例；自主测试用例中包含正常用户以及异常用例；异常用例中的信息内容与大语言模型所属类型相对应；将自主测试用例输入到大语言模型中执行模型功能，得到大语言模型对自主测试用例的响应结果；基于响应结果生成对大语言模型的安全测评报告。该方法采用自主测试用例来主动评估模型安全性，实现了对模型的自动化全面测评，提高了模型安全评估效率和准确性，增强了对不同领域和规模模型的适应性，实现了安全评估的自动化和持续优化，保证了模型运行的安全性。

技术关键词

大语言模型测评方法测试用例匹配专家系统报告关键词监测策略风险小规模计算机鲁棒性评估数据格式生成对抗网络测评装置多层次图谱测试场景