摘要
本申请公开了社交评论生成和多轮对话场景下的大语言模型对齐方法、装置、存储介质及电子设备。该方法包括:构建多种应用场景,为每个应用场景定义多种类型提示词,基于多种类型提示词与大语言模型进行单轮对话交互或多轮对话交互,得到对话数据集;确定关键词集合,基于关键词集合从对话数据集中提取正样本与负样本,基于正样本与负样本构建训练集和测试集;使用偏好优化算法并基于训练集对大语言模型进行训练,并基于测试集对训练后的大语言模型进行评估。本申请能够在多轮对话中对存在的漏洞进行检测与定向修复,从而提升大语言模型的安全性与鲁棒性。