摘要
本申请公开了一种模型训练方法、系统、设备及介质,通过获取负向指令,以及获取到的负向指令对应的正向回复;将所述负向指令输入目标大模型,得到目标大模型产生的负向回复,存在对应关系的正向回复和负向回复结合得到正负样本对,并储存至目标数据集,基于训练完成的判别模型对所述目标数据集中负向指令的正向回复进行评分,确定评分低于第一预设阈值的负向指令;对筛选得到的负向指令进行拓展,基于拓展结果对目标大模型进行调整,并执行所述获取负向指令及后续步骤。运用了对比的思想来优化损失函数,引入了判别模型来辅助模型的迭代过程,减少了人工标注和评估的工作量,降低了人力成本。