知识蒸馏方法、装置、设备、存储介质及程序产品

申请号：CN202410749992

申请日期：2024-06-11

公开号：CN118627590A

公开日期：2024-09-10

类型：发明专利

摘要

本申请提供一种知识蒸馏方法、装置、设备、存储介质及程序产品，涉及自然语言处理领域。该方法包括：获取多个教师模型各自在当前次迭代的蒸馏权重，根据蒸馏权重和教师模型的模型参数确定学生模型的模型参数，基于代理语料通过当前次迭代的学生模型执行预设的自然语言处理任务，根据学生模型的输出值确定训练损失，再根据训练损失确定是否继续迭代以得到知识蒸馏后的学生模型。该知识蒸馏方法中的代理预料是从原始语料中选取的部分语料，可以减少知识蒸馏使用的数据量，使学生模型在小数据量的代理语料上执行预设的自然语言处理任务，并根据任务执行结果调整教师模型的蒸馏权重，可以降低知识蒸馏的耗时，加快知识蒸馏速度。

技术关键词

知识蒸馏方法学生自然语言教师计算机执行指令编码蒸馏装置参数基因算法可读存储介质计算机程序产品处理器通信存储器模块元素电子设备