摘要
本申请公开了一种知识蒸馏方法、装置、设备、介质及产品,涉及人工智能技术领域,该方法包括:将第t次循环次数对应的当前迭代次数下的文本分别输入教师模型和学生模型,得到概率分布集合;根据概率分布集合计算前向KL散度以及反向KL散度的值得到损失函数值;若标记词为非结束标记符,则将标记词拼接到文本后面,然后进入第t次循环次数对应的下次迭代;否则根据损失函数值对学生模型的参数进行更新,然后令循环次数t加1并初始化下一循环次数对应的迭代次数,进入下次循环,直到训练数据集中的文本被抽取完毕,保存最后一次循环次数对应的学生模型的参数及学生模型的架构,本申请可提高学生模型的精度和泛化能力。