摘要
本申请公开了一种大语言模型蒸馏方法、装置、设备及存储介质,涉及计算机技术领域,所述大语言模型蒸馏方法包括:基于马尔可夫决策过程和教师模型的生成过程确定所述教师模型的教师占用测度和学生模型的学生占用测度;通过所述教师占用测度、所述学生占用测度以及JS散度进行损失函数定义,确定所述学生模型的训练损失函数;根据专家数据集、目标判别器以及所述训练损失函数对所述学生模型进行训练,得到目标蒸馏模型,以通过所述目标蒸馏模型进行语言处理任务。通过上述方式,蒸馏过程结合了黑盒知识蒸馏和白盒知识蒸馏的优点,降低了模型蒸馏的时间成本和硬件成本,并保证了蒸馏小模型的模型性能和通用性。