摘要
本申请提供一种知识蒸馏方法、装置、设备、存储介质及程序产品,涉及自然语言处理领域。该方法包括:获取多个教师模型各自在当前次迭代的蒸馏权重,根据蒸馏权重和教师模型的模型参数确定学生模型的模型参数,基于代理语料通过当前次迭代的学生模型执行预设的自然语言处理任务,根据学生模型的输出值确定训练损失,再根据训练损失确定是否继续迭代以得到知识蒸馏后的学生模型。该知识蒸馏方法中的代理预料是从原始语料中选取的部分语料,可以减少知识蒸馏使用的数据量,使学生模型在小数据量的代理语料上执行预设的自然语言处理任务,并根据任务执行结果调整教师模型的蒸馏权重,可以降低知识蒸馏的耗时,加快知识蒸馏速度。