大语言模型安全评估方法、装置及电子设备

申请号：CN202511302693

申请日期：2025-09-12

公开号：CN120805149A

公开日期：2025-10-17

类型：发明专利

摘要

本申请实施例适用于人工智能模型技术领域，提供了一种大语言模型安全评估方法、装置及电子设备，该方法包括：获取由预设安全评估模型针对多个评测样本进行评估得到的安全评估信息，以及与安全评估信息对应的不确定性值；评测样本包括输入信息以及由待评测大模型针对各个输入信息生成的输出信息；依据抽样样本集确定动态阈值；针对不确定性值大于动态阈值的评测样本，确定针对评测样本的专家标签为评测样本的安全评估信息；依据各个评测样本及对应的安全评估信息，生成待评测大模型的安全评估结果。本申请实施例可以实现高效完成对待评测大模型进行安全评估，并确保对待评测大模型的安全评估结果准确性、可靠性。

技术关键词

样本大语言模型误差系数高风险生成输出信息动态标签置信度阈值错误率计算误差电子设备人工智能模型计算机程序产品评估装置处理器模块存储器总量