摘要
本申请实施例适用于人工智能模型技术领域,提供了一种大语言模型安全评估方法、装置及电子设备,该方法包括:获取由预设安全评估模型针对多个评测样本进行评估得到的安全评估信息,以及与安全评估信息对应的不确定性值;评测样本包括输入信息以及由待评测大模型针对各个输入信息生成的输出信息;依据抽样样本集确定动态阈值;针对不确定性值大于动态阈值的评测样本,确定针对评测样本的专家标签为评测样本的安全评估信息;依据各个评测样本及对应的安全评估信息,生成待评测大模型的安全评估结果。本申请实施例可以实现高效完成对待评测大模型进行安全评估,并确保对待评测大模型的安全评估结果准确性、可靠性。